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摘 要 人 类 在 社会 互动 中 通过 他 人 的 行为 对 他 人 特质 、 意 图 及 特定 情境 下 的 社会 规范 进行 学 习 ， 是 优化 决 
策 、 维 护 积极 社会 互动 的 重要 条 件 。 近 年 来 ， 越 来 越 多 的 研究 通过 结合 计算 模型 与 神经 影像 技术 对 社会 学 习 
的 认 知 计算 机 制 及 其 神经 基础 进行 了 深入 考察 。 已 有 研究 发 现 ， 人 类 的 社会 学 习 过 程 能 够 较 好 地 被 强化 学 习 
模型 与 贝 叶 斯 模型 刻画 ， 主 要 涉及 的 认 知 计算 过 程 包 括 主观 期 望 、 预 期 误差 和 不 确定 性 的 表征 以 及 信息 整合 
的 过 程 。 大 脑 对 这 些 计 算 过 程 的 执行 主要 涉及 奖惩 加 工 相 关 脑 区 (如 腹 侧 纹 状 体 与 腹 内 侧 前 额 叶 )、 社 会 认 知 
加 工 相关 脑 区 (如 背 内 侧 前 额 叶 和 里 顶 联 合 区 ) 及 认 知 控制 相关 脑 区 (如 背 外 侧 前 额 叶 )。 需 要 指出 的 是 ,计算 过 
程 与 大 脑 区 域 之 间 并 不 是 一 一 映射 的 关系 ,提示 未 来 研究 可 借助 多 变量 分 析 与 脑 网 络 分 析 等 技术 从 系统 神经 
科学 的 角度 来 考察 大 尺度 脑 网 络 如 何 执行 不 同 计 算 过 程 。 此 外 ， 将 来 研究 应 注重 生态 效 度 ， 利 用 超 扫 描 技 术 考 
察 真 实 互动 下 的 社会 学 习 过 程 ， 并 更 多 地 关注 内 隐 社 会 学 习 的 计算 与 神经 机 制 。 

关键 词 。 社 会 学 习 ,， 计算 模型 ， 神经 影像 强化 学 习 模 型 ， 贝 叶 斯 模型 
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1 引言 (Thornton & Tamir, 2017), 为 了 优化 决策 ， 人 们 需 


从 他 人 行为 中 实时 推断 他 人 的 所 思 所 想 ， 即 对 他 

人 类 的 天 部 分 清醒 时 间 都 在 与 他 人 互动 。 在 As deena 

z THA? 经 党 依赖 于 对 他 人 特 JARIT o Wa, W RE T 
互动 中 ， 人 们 的 社会 决策 经 常 依赖 于 对 他 人 特 以 及 最 后 的 成 果 分 配 很 大 程度 上 受到 相应 情境 下 
质 、 意 图 以 及 所 处 社会 情境 的 认识 : 试想 你 是 某 的 社会 规范 的 影响 。 社 会 规范 给 大 们 提供 了 稳定 
重要 项 目的 负责 人 ， 还 缺 一 名 同事 与 你 合作 ， 小 。。 的 心理 预期 和 可 靠 行为 参照 ,在 社会 互动 中 具有 
主动 请 求 加 入 ,你 是 否 会 管 应 让 他 成 为 你 的 全 ”重要 作用 。 然 而 ,社会 规范 很 大 程度 上 受 具体 社 


it 


作者 ? 你 开始 观察 小 李 工 作 的 获 率 质量， 考虑 。 会 情境 的 制约 ， 同 时 社会 情境 也 会 影响 个 体 对 社 


BAY 


他 是 否 有 能 力 胜任 ; 你 还 留意 他 在 工作 上 是 否 吃 。 全 规范 的 解释 也 即 人 们 信念 中 固有 的 规范 并 非 


音 耐 劳 。 但 由 于 无 法 直接 观察 他 人 的 内 在 特质 ， 在 任何 情境 下 适用 ,所 以 学 习 特 定 情境 下 的 社会 
人 们 需要 在 与 他 人 的 多 次 互动 中 通过 他 人 的 行为 ”规范 对 指导 社会 决策 有 着 重要 的 意义 。 
村 点 对 其 能 力 或 道德 品质 进行 判断 ， 也 即 在 对 他 通过 人 际 互动 对 他 人 特质 、 意 图 、 与 特定 情 
人 特质 进行 学 习 ， 以 优化 决策 。 当 你 选择 和 小 李 境 下 的 社会 规范 进行 学 习 是 人 类 社会 中 一 种 重要 
一 起 开始 项 目 后 ， 可 能 需要 不 断 评 估 对 方 当 前 的 的 社会 学 习 形式 , 构成 了 人 类 日 常 的 社会 互动 中 
动机 或 者 行动 意愿 ， 以 便 适时 给 予 必要 的 激励 。 极其 重要 日 复杂 的 环节 。 在 学 习 的 方式 上 ， 本文 
然而 , 他 人 的 意图 也 是 无 法 直接 观察 的 ， 相 比 起 关注 人 类 通过 与 他 人 直接 的 互动 发 生 的 学 习 ， 同 
较为 稳定 的 能 力 或 道德 品质 ， 意 图 在 动态 变化 着 时 ,也 对 在 互动 情境 中 的 观察 学 习 (observational 

learning) 进 行 了 必要 的 探讨 ; 而 在 学 习 的 目的 上 
ee (Ruff & Fehr, 2014)， 本 文 讨论 的 内 容 主 要 涉及 (1) 
* 国家 自然 科学 基金 (31900757, 32020103008) 资 助 。 通过 了 解 他 人 而 更 好 地 惠及 自己 (也 即 for oneself); 
通信 作者 : 封 春 亮 , E-mail: chunliang.feng@m.scnu.edu.cn (2) 通 过 了 解 他 人 而 更 好 地 在 群体 中 做 出 合适 恰当 
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的 行为 (也 即 for normative principles)。 简 括 而 言 ， 
本 文 主 要 关注 人 类 在 社会 互动 过 程 中 对 他 人 特 
质 、 信 念 以 及 社会 规范 的 学 习 ， 也 即 个 体 为 了 适 
应 特定 的 社会 互动 过 程 而 产生 的 学 习 行 为 。 需 要 


实 计算 模型 的 合理 性 提供 生物 学 证 据 ， 有 利于 研 
究 者 们 了 解 特定 脑 区 在 社会 学 习 过 程 中 的 具体 参 
与 方式 以 及 执行 的 计算 过 程 (例如 表征 主观 效用 )， 
使 计算 模型 不 只 停留 在 理论 假设 的 层面 上 。 总 括 


指出 的 是 , 社会 学 习 也 具有 其 他 目的 性 , 例如 通 
过 了 解 他 人 而 更 好 地 惠及 他 人 (也 即 for others). 
这 类 社会 学 习 一 般 称 为 亲 社 会 学 习 (prosocial 
learning)， 在 人 类 和 动物 中 均 有 大 量 研究 ， 这 个 
研究 领域 的 一 个 重要 发 现 是 扣 带 前 回 (anterior 
cingulate gyrus) 特 异性 地 参与 了 个 体 的 亲 社 会 学 
习 过 程 (Basile et al., 2020; Hill et al., 2016; 
Lockwood et al., 2016)。 这 类 研究 不 在 本 文 的 论述 
范围 之 内 ， 感 兴趣 的 读者 可 以 参见 近年 来 相关 的 
人 研究 与 综述 (Apps et al., 2016; Lockwood, Apps, & 
Chang, 2020; Lockwood, O’Nell, & Apps, 2020)。 
社会 学 习 对 个 体 适 应 复杂 的 社会 环境 以 及 优 
化 社会 决策 有 着 重要 的 意义 。 首 先 ， 社 会 学 习 有 
利于 维护 自我 利益 或 规避 伤害 ， 例 如 在 了 解 一 个 
人 的 不 诚信 品质 或 欺骗 意图 后 避免 与 之 交易 导致 
上 当 受 骗 。 其 次 , 个 体 对 他 人 偏好 的 学 习 有 利于 
人 际 关系 的 建立 与 维护 。 最 后 ,学 习 特 定 的 社会 
规范 可 指引 特定 情境 下 的 决策 ， 避免 触犯 规范 底 
Be, 有 助 于 获得 群体 的 接纳 。 简 而 言 之 , 社会 学 习 
大 大 减少 了 社交 中 的 不 确定 性 ， 帮助 人 们 优化 决 
策 以 保障 积极 的 社会 互动 ， 是 工作 与 生活 顺利 进 
行 、 维 护 良 好 的 人 际 关系 以 及 身心 健康 的 重要 条 
件 (Greaves & Farbus, 2006; Loughrey et al., 2020; 
Seppala et al., 2013)。 
由 于 其 重要 性 与 复杂 性 ,社会 学 习 一 直 是 多 
个 研究 领域 热切 关注 的 主题 。 近 年 来 , 计算 模型 
与 神经 影像 技术 越 来 越 多 地 被 应 用 到 社会 学 习 领 
域 的 研究 中 ,两 种 技术 的 结合 体现 出 独特 优势 。 
首先 ， 相 比 于 传统 分 析 只 关注 个 体 的 外 显 决 策 行 
H, 计算 模型 将 社会 决策 拆 解 成 若干 成 分 , 对 隐 
藏 的 、 无 法 直接 测量 的 社会 认 知 过 程 了 予以 定量 的 
描述 (Suzuki & O'Doherty, 2020; 张 银 花 等 , 2020; 
高 青 林 ， 周 媛 ，2021)， 这 有 利于 揭示 社会 学 习 所 
包含 的 潜在 心理 计算 过 程 。 其 次 , 通过 将 计算 模 
型 里 的 潜 变 量 与 神经 影像 数据 相关 联 ， 可 揭示 执 
行 计算 模型 所 表述 的 不 同 计 算 过 程 的 脑 区 
(Charpentier & O'Doherty, 2018; Cohen et al., 2017; 
Corrado et al., 2009; Glischer & O'Doherty, 2010; 
O'Doherty et al., 2007; Joiner et al., 2017)， 这 为 证 


而 言 ， 计 算 模 型 可 对 社会 决策 背后 的 认 知 计算 及 
其 神经 机 制 进行 解释 ， 可 作为 连接 神经 活动 与 个 
体 行 为 表现 的 桥梁 。 

简 而 言 之 , 计算 模型 为 理解 社会 学 习 的 潜在 
计算 过 程 与 神经 机 制 提供 了 客观 的 框架 。 为 了 更 
深入 理解 社会 学 习 的 计算 神经 机 制 ， 本文 将 对 社 
会 学 习 相 关 的 计算 模型 及 其 相关 的 神经 基础 进行 
回顾 ， 以 系统 地 阐述 个 体 在 社会 互动 中 对 他 人 特 
质 、 意 图 及 社会 规范 学 习 的 认 知 计算 过 程 。 


2 ”社会 学 习 的 计算 机 制 


21 强化 学 习 模 型 

强化 学 习 的 提出 源 于 传统 行为 主义 学 说 ， 如 
条 件 作用 论 和 强化 学 习 理 论 ， 即 反复 试 误 后 可 形 
成 刺激 /行为 与 结果 的 关联 ， 若 某 种 刺激 /行为 伴 
随 奖 赏 结果 , 个 体 随 后 选择 该 刺激 /行为 的 可 能 4 
增加 。 强 化 学 习 模 型 描绘 了 自主 能 动 的 施 动 者 
(agent) 为 了 实现 一 定 的 目标 , 与 外 界 环境 
(environment) 交 互 时 及 时 根据 反馈 (reward) 性 质 
从 而 及 时 调整 行动 (action) 的 过 程 : 正 性 反馈 会 增 
加 同样 行为 的 几率 ,而 负 性 的 反馈 则 会 前 弱 后 续 
再 次 采取 同样 行为 的 可 能 性 ， 如 俗话 所 言 ,“ 有 借 
有 还 ， 再 借 不 难 ; 有 借 无 还 ， 再 借 免 谈 ”。 在 社会 
情境 中 , 已 有 的 互动 反馈 (如 他 人 守信 /失信 行为 ) 
会 影响 后 续 的 社会 决策 (对 他 人 信任 增加 /减少 )。 
本 小 节 将 介绍 在 社会 学 习 实 证 研究 领域 常见 的 强 
化 学 习 模 型 ， 从 强化 学 习 模 型 视角 介绍 社会 学 习 
的 计算 机 制 。 
2.1.1 Rescorla-Wagner 强化 学 习 模 型 与 社会 学 习 

Rescorla-Wagner (RW) 强 化 学 习 模 型 (Rescorla- 
Wagner Reinforcement Learning model) (Rescorla & 
Wagner, 1972) 认 为 ， 人 类 的 决策 是 根据 刺激 /行为 
在 当前 时 刻 (1) 的 奖赏 期 望 (expectation， 玉 ) 做 出 
的 (Sutton & Barto, 2018)。 一 个 行为 带 来 的 奖赏 期 
望 越 高 ,其 具有 的 心理 效用 则 更 高 ,因而 人 们 更 
倾向 选择 奖赏 期 望 高 的 决策 。 若 当前 的 实际 结果 
(outcome， 刀 ) 与 预先 的 期 望 (万 ) 不 一 致 ， 则 计算 
期 望 与 当前 结果 ( 即 反 馈 ) 之 间 产 生 偏 差 ， 即 预期 
误差 (prediction error, PE, )。 人 们 将 预期 误差 与 原 
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有 的 期 望 加 以 整合 以 形成 新 的 期 望 (7,,), 新 的 期 


情境 下 ,他 人 的 高 面孔 可 信 度 与 背叛 行为 产生 冲 


望 将 指引 人 们 的 下 一 次 决策 。 强 化 学 习 模 型 公式 
可 如 下 表达 (公式 1&2): 
Vip =V,+a-PE,, (1) 
PE, =r, -V,. (2) 
其 中 的 参数 a 是 学 习 率 (learning rate), HUE 
为 0~1， 代 表 人 们 对 预期 误差 赋予 的 权重 ， 学 习 
率 越 接近 1 表示 人 们 在 更 新 期 望 时 越 多 考虑 了 近 
期 的 结果 (Zhang, Lengersdorff et al., 2020)。 
RW 强化 学 习 模 型 最 初 应 用 在 非 社会 性 学 习 
中 。 例 如 ,在 经 典 的 强化 学 习 任务 里 ， 两 个 图 形 刺 
激 分 别 对 应 于 获得 奖励 (果汁 ) 的 不 同 概率 ,被 试 
分 别 更 新 两 个 刺激 的 获奖 期 望 ， 进 而 更 多 地 选择 
奖赏 概率 更 高 的 选项 (O'Doherty et al., 2004)。 又 如 
在 爱 荷 华 赌博 任务 中 ,被 试 根据 实际 收益 习 得 各 纸 
牌 的 收益 期 望 ， 从 而 选择 有 利 的 纸牌 (Steingroever 
et al., 2014)。 而 在 社会 互动 的 情境 中 , 他 人 的 行为 
也 是 有 效 的 反馈 信息 ,通过 比较 反馈 与 期 望 ， 人 
们 不 断 更 新 对 他 人 特质 或 意图 的 信念 。 近 年 来 ， 
大 量 研究 表明 个 体 在 社会 情境 中 的 学 习 行 为 符合 
强化 学 习 的 假设 ,例如 ,在 Chien 等 的 一 项 实验 里 
(Chien et al., 2016), 被 试 和 4 个 玩家 (A, B, C, D) 
玩 游戏 , 每 一 轮 游戏 中 被 试 需 在 两 个 玩家 中 选择 ， 
选中 的 玩家 可 能 给 被 试 一 枚 金币 (1) 或 不 给 金 
(0)。 举 例 而 言 ， 假设 被 试 对 于 4 个 玩家 的 奖赏 的 
初始 期 望 矿 均 为 0.5。 如 果 某 个 被 试 有 相对 高 的 学 
习 率 (a = 0.8), t HAET A 玩家 并 获得 1 金币 ， 
根据 预期 误差 的 计算 , 被 试 对 A 的 PE, 为 0.5, 经 
WEI Ka 的 缩放 后 , 对 A 的 期 望 矿 ,更 新 为 
0.9。 经 过 与 4 个 玩家 的 多 次 互动 ,被 试 利用 反馈 
逐渐 学 习 到 了 4 人 各 自 的 慷慨 程度 ， 从 而 更 倾向 
选择 与 回报 更 高 的 玩家 互动 。 由 于 社会 互动 的 复 
杂 性 ， 人 们 往往 采取 多 样 的 强化 学 习 模 式 以 更 好 
地 优化 自己 的 决策 。 首 先 ， 人 们 在 不 同情 境 中 对 
结果 反馈 赋予 不 同 的 权重 ， 也 即 采取 不 同 的 学 习 
率 。 例 如 ， 人 们 对 于 不 同 吸 引力 的 对 象 采 取 不 同 
的 学 习 率 , 这 说 明 即 使 两 个 人 给 予 自己 同等 数额 
的 奖励 ， 两 者 面孔 的 吸引 力 差异 导致 人 们 对 同样 
的 结果 赋予 的 权重 不 同 (Chien et al., 2016)。 此 外 ， 
他 人 面孔 可 信 度 对 心理 效用 的 作用 受 其 行为 的 影 
向 ， 如 果 一 个 人 的 面孔 可 信和 度 高 并 且 互 惠 ， 人 们 


突 ， 高 面孔 可 信和 度 反而 导致 更 大 的 效用 折扣 
(Chang et al., 2010)。 类 似 地 , 他 人 为 自己 提供 建 
议 时 ， 人 们 会 根据 建议 者 的 诚实 度 和 信息 真实 性 
采取 不 同学 习 率 来 更 新 信任 决策 的 价值 : 当 建议 
者 较 诚 实 ， 人们 对 其 提供 的 真实 信息 比 虚 假 信 息 
赋予 更 多 权重 ; 相反 ,和 若 建 议 者 较 不 诚实 ， 人 们 
对 其 提供 的 虚假 信息 结果 赋予 的 权重 更 多 
(Bellucci & Park, 2020)。 最 后 , 个 体 也 能 根据 环境 
的 不 确定 程度 适应 性 地 调整 学 习 率 (Franklin & 
Frank，2015)。 例 如 , 在 信任 游戏 (Trust game) 中 ， 
当 委 托 人 返还 的 金额 起 伏 不 定时 ,投资 人 对 对 方 
可 信 程度 的 学 习 率 会 提高 ， 从 而 迅速 适应 社会 互 
动 中 的 高 不 确定 性 ; 相反 ， 当 委托 人 返还 的 金额 相 
对 稳定 时 , 投资 人 的 学 习 率 会 下 降 (Lamba et al., 
2020)。 又 如 , 个 体 在 接受 他 人 建议 时 ， 也 会 根据 
对 方 建议 准确 性 的 变化 程度 来 调整 学 习 率 ， 从 而 
对 他 人 当前 的 可 信 程度 进行 准确 的 更 新 (Behrens 
et al., 2008)。 再 者 ， 由 于 他 人 特质 的 不 确定 性 在 经 
过 学 习 后 被 逐渐 消除 ， 学习 率 会 随 着 学 习 的 进程 
逐渐 递减 (Chien et al., 2016)。 

其 次 ， 人 们 在 社会 学 习 中 对 多 个 维度 同时 进 
行 表征 与 更 新 。 在 分 配 任务 里 ， 人 们 根据 分 配 者 
的 可 支配 总 额 和 分 配 金额 ,同时 计算 对 方 给 予 的 
奖赏 ( 即 对方 给 我 多 少 ) 与 巾 慨 度 ( 即 对 方 给 我 的 金 
钱 占 他 可 支配 金钱 的 多 少 ) 的 预期 误差 权衡 金钱 
与 慷慨 两 个 维度 来 更 新 对 对 方 的 期 望 (Hackel et al., 
2015; Hackel & Zaki, 2018); 又 如 ,在 竞争 /合作 
游戏 中 ， 人 们 根据 游戏 的 输赢 结果 ， 计 算 对 他 人 
能 力 的 预期 误差 和 自己 能 力 的 预期 误差 , 同时 更 
新 对 自己 和 他 人 的 能 力 判 断 ， 并 依据 此 预测 与 之 
合作 或 者 竞争 可 获得 的 奖赏 (Wittmann et al., 
2016); 类 似 地 ， 人 们 根据 互动 结果 比较 自己 已 选 
策略 和 其 他 备 选 策略 的 优 劣 性 ， 并 观察 他 人 的 决 
策 变化 对 自己 决策 策略 的 影响 以 此 追踪 他 人 的 
决策 策略 : 若 自 己 原本 的 最 优 策 略 变 成 次 优 策 略 
则 意味 着 对 手 改 变 了 策略 ， 此 时 人 们 需 及 时 做 出 
调整 ， 选 出 目前 对 自己 最 优 的 策略 (Zhu et al., 
2012)。 再 者 ,在 学 习 他 人 的 风险 偏好 时 ， 人 们 模 
拟 他 人 对 奖赏 的 预期 并 依据 此 预测 他 人 的 行 
为 。 根 据 他 人 的 行为 和 所 获得 的 奖赏 结果 ， 人们 


认为 与 其 互动 有 更 高 的 效用 ， 即 在 互惠 情境 下 
面孔 可 信和 度 增 加 了 人 们 的 效用 期 望 ; 然而 在 背叛 


可 同时 计算 他 人 的 奖赏 预期 误差 .以 及 他 人 实际 
行为 与 自己 所 估计 的 出 人， 及 时 更 新 各 选项 的 奖赏 


202303.09686v1 


y= 
i | 


chinaXiv 


ChinaXiv 合 作 期 刊 


680 心理 科学 进展 第 29 卷 


期 望 ， 以 准确 推 新 他 人 接 下 来 的 决策 (Suzuki et al., 
2012)。 此 外 ， 由 于 现实 社会 中 的 互动 常常 是 重复 
多 次 的 (我 们 经 常 需要 和 同一 个 人 多 次 打交道 )， 
因此 个 体 在 社会 互动 中 不 仅仅 需要 考虑 当前 行为 
带 来 的 即时 结果 ， 同 时 也 需 考虑 行为 对 将 来 互动 
的 影响 。 在 公共 物品 博弈 任务 (Public Goods Game) 
中 ， 人 们 根据 组 员 行为 与 预期 中 的 偏差 推断 组 
员 当 前 回合 合作 的 可 能 性 ,计算 个 人 效用 ; 同时 ， 
人 们 也 在 计算 小 组 在 剩余 的 游戏 回合 中 合作 的 长 
期 收益 期 望 ， 以 及 自己 当前 行为 对 未 来 合作 的 影 
响 。 也 即 ， 人 们 同时 权衡 当前 收益 与 长 期 收益 来 
调整 自己 当前 的 合作 行为 (Park et al., 2019). 
最 后 ， 强 化 学 习 模 型 也 能 够 刻画 个 体 对 社会 
规范 的 学 习 过 程 (FeldmanHall et al., 2018; 
Toyokawa et al., 2019; Zhang & Glischer, 2020)。 
例如 ,在 正义 游戏 (Justice Game) 里 , 第 一 阶段 被 
试 作为 接受 者 面 对 不 公平 分 配 时 ,更 多 选择 补偿 
自己 而 非 惩 罚 分 配 者 ; 在 第 二 阶段 ,被 试 作为 第 
三 方 替 其 他 接受 者 做 决策 ， 随 后 查看 接受 者 的 实 
际 意 愿 ， 但 观察 到 大 多 接受 者 更 愿意 选择 惩罚 措 
施 ， 被 试 在 这 个 过 程 中 通过 整合 预期 误差 与 原本 
的 信念 ， 学 习 到 他 人 的 规范 价值 观 。 被 试 在 第 三 
阶段 的 任务 与 第 一 阶段 相同 , 但 由 于 习 得 了 新 的 
社会 规范 (也 即 通过 惩罚 不 公平 行为 ， 而 非 补 偿 不 
公平 的 受害 者 来 维护 社会 规范 )， 此 时 被 试 更 多 惩 
罚 不 公平 的 分 配 者 而 不 是 补偿 自己 (FeldmanHall 
et al., 2018)。 在 Toyokawa 等 (2019) 的 一 项 群体 风 
险 决 策 实验 里 ,被 试 每 一 回合 选择 三 个 老虎 机 中 
的 一 个 ， 且 被 试 能 看 见 其 他 人 的 决策 。 在 前 一 阶 
Be, 一 台 老 虎 机 (假设 为 A) 有 和 较 高 的 说 钱 概 率 ， 而 
另外 两 台 (B、O) 启 钱 概率 较 低 。 但 在 实验 的 后 一 
阶段 ，B 成 为 收益 最 高 的 一 台 老 虎 机 ( 赢 钱 概率 
B>A>C)。 在 后 一 阶段 ， 所 有 人 倾向 选择 前 一 阶段 
最 优 的 选项 ， 即 使 该 选项 在 后 一 阶段 只 是 次 优 
的 。 同 时 ,被 试 倾向 跟随 他 人 的 行为 ,导致 群体 不 
能 适应 环境 的 变化 ,“ 受 困 于 ”次 优 的 决策 ， 且 这 种 
效应 随 群 体 规模 增 大 而 增加 。 对 此 ，Toyokawa 等 
提出 的 强化 学 习 模 型 假设 : 在 群体 风险 决策 中 ， 
人 们 对 各 选项 的 奖赏 期 望 进行 学 习 , 但 人 们 在 群 
体内 的 决策 实际 上 是 对 社会 规范 (群体 某 种 决策 
的 频率 ) 与 私利 影响 (奖赏 期 望 ) 的 权衡 : 群体 越 大， 
社会 影响 的 权重 则 越 大 ， 这 使 群体 多 数 人 选择 的 
老虎 机 的 效用 增加 。 在 三 台 老 虎 机 收益 十 分 接近 ， 


ray 


即 决策 难度 较 大 的 情况 下 ， 人 们 对 群体 决策 频率 
的 感知 也 被 放大 ， 此 时 群体 多 数 人 选择 的 选项 的 
效用 也 增加 (Toyokawa et al., 2019)。 

2.1.2 马尔 科 夫 决策 过 程 与 社会 学 习 

与 传统 心理 学 研究 中 主要 关注 环境 刺激 与 个 
体 反应 之 间 的 联系 不 同 ,马尔 科 夫 决策 过 程 
(Markov decision process，MDP) 是 更 完整 的 强化 学 
习 模 型 。 在 MDP 中 ,处 于 某 一 个 状态 (state) 之 中 
的 施 动 者 在 采取 了 行动 空间 中 的 某 个 行动 a 后 能 
以 一 定 概率 转移 到 另 一 个 状态 中 ; 因此 ， 施 动 者 
所 处 的 某 个 状态 s 与 某 个 特定 的 行动 a 可 共同 决 
定 该 施 动 者 从 原 有 状态 s 到 下 一 所 状态 的 转移 ， 
其 成 功 转移 的 概率 称 为 转移 概率 7($,a,s) 。 

个 体 在 MDP 中 的 每 一 个 行动 都 会 影响 下 一 
个 到 达 的 状态 以 及 获得 的 奖赏 ,， 因此， 能 使 后 续 
累积 奖赏 期 望 最 高 的 行动 作 在 当前 状态 下 最 佳 的 
决策 。 个 体 通 过 两 种 学 习 方 法 来 决定 当前 状态 下 
的 最 佳 决 策 : 基于 模型 的 (model-based) 强 化 学 习 
和 无 模型 的 (model-free) 强 化 学 习 (Collins & 
Cockburn, 2020; Dolan & Dayan, 2013)。 基 于 模型 
的 强化 学 习 指 的 是 在 明白 所 有 转移 概率 函数 以 及 
奖赏 的 条 件 下 , 计算 未 来 一 系列 的 状态 -行为 的 
奖赏 。 而 无 模型 的 强化 学 习 则 是 用 新 获得 的 奖赏 
与 原 有 的 对 状态 -行动 的 奖赏 预期 加 权 平 均 ， 
成 新 的 预期 。 例 如 Daw 等 (2011) 的 二 阶段 决策 任 
务 中 , 在 第 一 阶段 有 两 个 藏 语文 字 选 项 ,被 试 选 
择 任意 选项 后 以 一 定 概 率 到 达 第 二 阶段 中 两 种 状 
态 中 的 其 中 一 个 ; 第 二 阶段 的 两 种 状态 中 也 各 有 
两 个 藏 语文 字 选 项 ， 分 别 与 不 同 概率 的 金钱 奖赏 
相关 联 ， 被 试 在 此 任务 中 同时 采用 基于 模型 的 和 
无 模型 的 强化 学 习 ， 也 即 ， 既 通过 求解 转移 概率 
函数 与 奖赏 函数 来 计算 当前 阶段 的 各 选项 的 奖赏 
期 望 ， 也 根据 最 新 得 到 的 奖励 更 新 对 奖励 的 期 望 ， 
将 两 者 加 权 求 和 。Lockwood, Klein-Fliigge 等 (2020) 
将 此 二 阶段 决策 任务 范式 改编 到 社会 情境 中 ,发 
现 被 试 在 蔡 自 己 决策 和 代替 其 他 人 做 决策 时 均 同 
时 采取 了 基于 模型 和 无 模型 的 强化 学 习 , 但 在 蔡 
他 人 做 决策 时 ,无 模型 的 学 习 所 占 比重 更 多 ,而 
消耗 相对 多 认 知 资源 的 基于 模型 的 学 习 占 的 比例 
较 少 (Lockwood, Klein-Fliigge et al., 2020)。 

2.2 ” 贝 叶 斯 模型 与 社会 学 习 

强化 学 习 模 型 为 社会 学 习 过 程 提 供 了 强 有 力 

的 解释 。 按 照 RW 模型 ， 社 会 学 习 中 的 内 部 心理 
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变量 均 被 计算 为 确切 的 数值 。 然 而 ,许多 研究 证 
实 人 类 能 监测 并 表达 自己 所 感知 到 的 不 确定 性 ， 
因此 RW 模型 所 定义 的 学 习 方式 忽略 了 人 类 大 脑 
能 够 对 社会 不 确定 性 进行 表征 (Gershman, 2015)。 
贝 叶 斯 模型 假定 人 类 将 感知 到 的 社会 不 确定 性 表 
征 在 心理 变量 的 后 验 分 布 中 , 要 估计 的 对 象 未 知 
且 随 机 ， 因 此 贝 叶 斯 模型 能 够 刻画 个 体 对 不 确定 
性 的 表征 。 
2.2.1 贝 叶 斯 学 习 者 模型 

贝 叶 斯 学 习 者 模型 (Bayesian learner model) 是 


内 的 9 名 员工 的 职位 等 级 进行 学 习 。 在 被 试 起 初 
的 信念 中 , 各 种 等 级 排序 有 相等 的 可 能 性 ， 通 过 
观察 员工 两 两 比较 的 结果 ,被 试 不 断 更 新 各 种 职 
级 排序 的 信念 。 

人 们 追踪 他 人 意图 的 过 程 也 可 用 贝 叶 斯 学 习 
者 模型 描述 : 比如 在 群体 决策 中 , 为 了 让 自己 做 
出 与 其 他 组 员 一 致 的 选择 ， 人 们 预先 估计 其 他 组 
员 对 各 选项 的 偏好 ,并 根据 组 员 们 实际 的 选择 ， 
以 贝 叶 斯 的 方式 更 新 对 他 人 偏好 的 看 法 (Suzuki 
et al., 2015)。 由 于 互动 中 的 个 体 之 间 的 意图 推断 


描述 信息 优化 过 程 的 一 类 模型 。 贝 叶 斯 学 习 者 模 
型 的 样式 变化 丰富 ， 可 应 用 于 不 同 的 社会 学 习 过 
程 中 , 但 都 遵循 贝 叶 斯 信息 更 新 方式 (公式 3): 

pix) = PEIDRO) 

p(A|x) sn (3) 


可 能 是 多 层次 的 , 个 体 可 能 意识 到 自己 在 推断 他 
人 的 同时 , 他 人 也 在 推断 自己 对 他 的 推断 ， 因 此 
人 们 在 社会 互动 中 的 行为 可 能 符合 层级 贝 叶 斯 学 
习 者 模型 : 采用 低层 推断 的 学 习 者 仅 根据 观察 到 


的 对 手 的 行为 更 新 信念 并 推断 他 人 未 来 的 行为 ， 


其 中 , 用 9 表示 待 估计 的 变量 (如 他 人 的 可 信 
FEE), 人 们 对 一 切 竺 估计 的 变量 有 先 验 信念 
p(9)， 即 自己 对 某 个 变量 已 有 的 知识 ; x 表示 观 
测 到 的 数据 ,结合 先 验 知识 与 观测 值 可 求 得 似 然 
PRA p(x19)， 似 然 函 数 包含 了 观测 样本 的 所 有 信 
息 ; 根据 贝 叶 斯 公式 可 知 ， 人 们 对 于 待 估计 变量 
的 后 验 信 念 p(9|x) 与 似 然 函 数 和 先 验 分 布 的 乘 
积 成 正比 (公式 4): 
p| x) x p(x| A)p(A) (4) 
人 们 以 类 似 贝 叶 斯 学 习 者 的 方式 学 习 他 人 的 
特质 。 比 如 ,在 分 配 任务 里 ， 被 试 作 为 旁观 者 对 分 
配 者 的 慷慨 品质 有 先 验 看 法 ,结合 先 验 信念 与 实 
际 观察 到 的 分 配 者 行为 预测 其 随后 的 决策 
(Stanley, 2016)。 又 如 ,在 一 项 能 力学 习 的 任务 中 ， 
被 试 判断 专家 是 否 能 准确 预测 资产 的 涨 跌 ， 人 们 
除了 对 他 人 的 能 力 有 预先 的 看 法 ,也 对 资产 的 可 
预测 性 有 先 验 信念 ， 在 此 基础 上 结合 观察 到 的 他 
人 对 资产 涨 跌 的 预测 以 及 伴随 的 结果 (预测 正确 
与 否 ) 更 新 对 他 人 能 力 的 认识 ， 即 更 新 了 后 验 信念 ， 
贝 叶 斯 学 习 者 模型 能 捕捉 到 这 个 信念 更 新 的 过 程 
(Boorman et al., 2013)。 但 该 过 程 受到 确认 偏差 的 
影响 : 人 们 对 专家 的 能 力 有 较 强 的 积极 先 验 信念 ， 
专家 的 积极 表现 (正确 预测 ) 比 消极 表现 (错误 预测 ) 
被 赋予 更 多 权重 , 影响 了 信息 的 整合 ， 因 此 ， 当 
一 个 专家 的 预测 准确 率 只 有 25% 时 ， 人 们 仍 愿意 
相信 其 建议 Leong & Zaki, 2018)。 此 外 ， 贝 叶 斯 学 
习 者 模型 还 能 描述 人 们 学 习 到 他 人 的 权力 等 级 的 
过 程 ,在 Kumaran 等 (2016) 的 实验 里 , 被 试 对 公司 


而 更 高 层次 的 学 习 者 则 会 推断 :“ 他 如 何 推断 
R? ”或 者 “他 认为 我 是 如 何 推 新 他 的 ? ”因此 , 在 
更 高 层 意图 推断 者 的 信念 表征 中 ,并 不 直接 更 新 
他 人 的 行为 意图 ， 而 是 更 新 较 高 层次 的 “他 人 对 
我 的 推断 ”这 些 更 新 通过 层次 之 间 的 递归 计算 实 
现 (Devaine et al., 2014; Rusch et al., 2020; Yoshida 
et al., 2010)。 

最 后 ， 贝 叶 斯 模型 也 能 刻画 个 体 对 社会 规范 
的 整合 与 适应 。 当 人 们 处 于 一 个 陌生 的 环境 ， 环 
境 中 大 多 数 人 的 行为 是 最 直接 的 信息 源 ， 这 些 行 
为 被 群体 中 大 多 数 人 所 认同 ， 因 而 可 视 作 该 情境 
下 的 规范 。 通 常人 们 按照 信念 中 的 规范 (也 即 先 验 ) 
采取 行动 , 但 如 果 观 察 到 周围 大 多 数 人 的 决策 与 
自己 的 决策 有 偏差 ,个 体会 将 这 些 观察 到 的 规范 
与 人 们 原本 信奉 的 规范 (规范 先 验 ) 按 照 贝 叶 斯 方 
式 整合 。 因 此 ， 规 范 信 念 总 是 朝 观 察 到 的 规范 信 
息 的 方向 偏 移 ， 从 而 表现 出 从 众 行 为 (Khalvati， 
Mirbagheri et al., 2019)。 例 如 ， 在 跨 期 选择 或 者 风 
险 决 策 任务 中 ,被 试 从 其 他 人 的 行为 中 观察 到 多 
数 人 的 选择 偏好 ， 并 将 自己 的 偏好 ( 先 验 信念 ) 与 
多 数 人 的 行为 偏好 (社会 规范 ) 以 贝 叶 斯 信念 更 新 
的 方式 进行 整合 ， 从 而 让 自身 的 行为 与 群体 规范 
相 适 应 (Garvert et al., 2015; Reiter et al., 2019; 
Suzuki et al., 2016)。 又 如 ， 风 险 规 避 的 个 体 按 照 自 
身 原本 的 信念 倾向 在 风险 决策 中 选择 保守 的 选项 ， 
但 当 观 察 到 其 他 人 均 在 追求 风险 , 被 试 则 将 “ 风 
险 寻 求 ” 视 作 当 下 情境 的 一 种 规范 ， 因 而 改变 原 
本 的 风险 偏好 来 适应 当前 的 规范 (Suzuki et al., 
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2016)。 相 比 起 成 年 人 ， 青 少年 的 风险 偏好 更 易 受 
到 同龄 人 行为 的 影响 具体 表现 为 : 当 同 伴 均 在 
寻求 风险 时 ， 青 少年 更 多 将 这 种 规范 整合 到 信念 
中 去 , 信念 改 变 的 幅度 更 大 (Reiter et al., 2019). 
在 最 后 通 嵌 (Ultimatun game) 游 戏 里 ， 受 公平 信念 
影响 ， 应 对 者 在 游戏 开始 阶段 均 期 望 获得 50% 的 
分 配 ( 先 验 信念 )， 因 而 较 多 地 拒绝 不 均等 分 配 。 但 
随 着 游戏 进行 ， 人 们 以 贝 叶 斯 观察 者 的 方式 及 时 
从 他 人 的 行为 中 习 得 新 的 公平 规范 调整 预 
期 。 例 如 ， 当 应 对 者 发 现 多 数 分 配 者 给 出 的 分 配 
均 不 符合 公平 原则 ， 如 分 配 均值 为 20%， 应 对 者 
会 适应 性 地 降低 期 望 ， 更 多 地 接受 不 公平 的 分 
Bc AZ, 若 分 配 的 均值 在 60%, 应 对 者 的 期 望 提 
升 ， 对 于 后 续 相 对 公平 的 分 配 (40%)， 应 对 者 也 更 
多 地 拒绝 (Gu et al., 2015; Xiang et al., 2013)。 值 得 
注意 的 是 , 与 贝 叶 斯 模型 的 假设 一 致 , 个 体 将 群 
体 观 点 整合 到 自己 信念 的 过 程 受到 自身 信念 以 及 
社会 信息 可 靠 程 度 的 影响 (de Martino et al., 2017; 
Park et al., 2017; Toelch et al., 2014)。 一 方面 , 规 
范 先 验 信念 较 弱 的 个 体 更 易 受 到 多 数 人 行为 的 影 
响 而 更 多 更 新 信念 ; 男 一 方面 ， 群体 人 数 越 多 时 ， 
群体 行为 越 是 可 靠 的 规范 证 据 ， 先 验 信念 更 可 能 
被 改变 。 例 如 ,被 试 要 求 在 阅读 一 段 犯罪 描述 后 
需 决 策 给 罪犯 判处 多 少年 的 刑罚 。 首 次 评分 确定 
性 越 低 的 被 试 , 越 容易 受到 评审 团 其 余人 的 判决 
的 影响 而 改变 决策 ， 当 评审 团 人 数 增加 ,被 试 也 
更 容易 改变 决策 , 使 自己 的 判决 与 评审 团 的 平均 
分 接近 (Park et al., 2017)。 
2.2.2 ”分 层 高 斯 过 滤器 

社会 情境 中 最 直接 的 不 确定 性 来 源 于 我 们 无 
法 得 知 他 人 接 下 来 的 行为 ， 而 这 种 不 确定 性 受到 
许多 他 人 内 部 状态 (hidden states) 的 影响 。 比 如 ， 
当 我 们 对 街头 的 流浪 者 予以 金钱 施舍 (x ), 该 行 
为 可 能 出 于 我 们 想 要 帮助 他 人 的 倾向 (zx ) 的 影响 ， 
这 种 倾向 进一步 受到 利他 动机 的 波动 (x ) 的 影 
Wo 又 如 ,梁山 好 汉 盗 取 他 人 人 金钱 的 行为 (x) 出 于 
获得 金钱 的 目的 (x,), (AAW EHH RRR 
意图 (x ) 所 产生 的 ， 这 种 意图 可 能 由 助人 动机 
(Xt) 所 导致 ,由 这 些 例 子 可 见 ， 直观 的 行为 依赖 于 
复杂 的 、 不 可 见 的 内 部 状态 ,而 每 一 层次 的 内 部 
状态 又 依赖 于 更 高 层 的 状态 (最 高 层次 状态 除外 ), 
这 种 低层 次 状态 对 高 层次 状态 的 依赖 关系 在 分 
高 斯 过 滤器 (Hierarchical Gaussian Filter，HGF) 模 


Ml 


WP RZ AREA (coupling), HGF 假设 ， 人 们 观察 
到 的 他 人 的 行为 结果 (2 ) 均 取决 于 他 人 更 高 层次 
PAL BRAS (2095.23 ,% 4.000%, )。 这 些 内 部 状态 在 时 
间 上 以 高 斯 随机 漫步 (Gaussian random walks) 的 
形式 变化 : 除了 最 高 层 的 状态 x 以 外 (x 不 依赖 
FEW, xh ~ NG 9) )， 人 们 在 某 时 刻 (有 DD 对 
他 人 行为 /状态 的 表征 x 服从 高 斯 分 布 ,该 分 布 
的 均值 为 上 一 时 刻 (f-1) 对 该 行为 /状态 的 表征 
x " ,分布 的 方差 是 关于 更 高 层次 状态 的 函数 
fits) > Bk ~ NOE f(xii1))， 该 函数 反映 了 
上 一 层 状 态 对 下 一 层 状态 的 稳定 性 的 制约 ,制约 
关系 由 若干 个 参数 决定 (C. Mathys et al., 2011; C. 
D. Mathys et al. pn) aie 5): 

Filer) = EXP(K X41 +) (5) 

由 函数 表达 式 可 知 , w; 是 第 i 层 状态 x; 独 立 于 
更 高 层 状态 的 变量 ,表示 x 的 稳定 性 , w; 越 大 则 表 
IR xi 的 不 确定 性 越 强 ;，&; 是 上 一 层 状 态 xi 的 系 
数 ， 因 此 决定 了 xi SEERE xe 的 耦合 紧密 程 
E, GRK, x; BS xin 的 依赖 越 紧密 。 最 高 层 状态 
Xn 不 依赖 于 其 它 层 并 对 底层 状态 起 决定 作用 ,其 
波动 性 受 其 分 布 的 方差 9 制约 ,9 越 大 则 表示 最 高 
层 状 态 的 波动 性 越 强 。 

总 的 来 说 , HGF 有 三 大 优点 。 首先 , HGF 将 人 
们 感知 的 状态 以 概率 分 布 的 形式 表征 ， 捕 捉 表 征 
的 不 确定 性 。 其 次 , HGF 强调 了 心理 计算 的 分 层 
性 。HGF 在 贝 叶 斯 学 习 者 的 基础 上 加 入 影响 下 层 
心理 变量 的 上 层 因 素 , 对 人 们 感知 的 不 确定 性 的 
来 源 进 行 解释 。 最 后 ，HGF 刻画 的 学 习 过 程 反 映 
了 人 们 在 不 确定 性 强度 不 同 的 情境 下 动态 的 学 习 
速率 (C. Mathys et al., 2011; C. D. Mathys et al., 
2014)。 由 预期 误差 驱动 的 学 习 发 生 在 各 层次 中 ， 
各 层 的 学 习 率 是 当前 感知 到 的 状态 稳定 性 与 状态 
的 先 验 稳 定性 的 比值 。 因 此 ， 对 状态 先 验 的 表征 
越 不 稳定 ( 即 状态 先 验 的 方差 越 大 )， 或 当前 感知 
到 的 状态 稳定 性 越 强 ， 人 们 对 预期 误差 赋予 更 多 
的 权重 。 由 于 各 层次 的 状态 在 时 间 上 以 高 斯 随机 
漫步 的 形式 变化 ,学 习 率 时 刻 反 映 着 表征 中 的 不 
确定 性 与 环境 中 的 不 确定 性 。 

HGF 早期 主要 是 对 知觉 任务 进行 建 模 
(Lawson et al., 2017; Powers et al., 2017)， 但 近年 
来 越 来 越 多 的 研究 者 开始 将 HGF 模型 用 于 对 社 
人 人 
捕捉 到 人 们 对 他 人 道德 品质 的 学 习 。 被 试 观察 他 
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人 是 否 会 因为 金钱 利益 而 对 别人 实施 电击 伤害 ， 


与 其 他 数学 模型 进行 比较 ,挖掘 更 多 解释 社会 学 


两 层 的 HGF 模型 刻画 了 被 试 的 学 习 过 程 : 低层 是 
他 人 的 行为 结果 (x1), 取决 于 其 高 层 状态 一 一 道德 
品质 的 好 坏 (xz>)， 因 此 人 们 通过 学 习 其 道德 品质 
及 稳定 性 ， 对 其 接 下 来 的 行为 做 出 准确 的 预测 。 
xy 不 依赖 于 其 它 层 ， 其 不 确定 性 由 其 服从 正 态 分 
布 的 方差 exp (o) 反 映 。 模 型 拟 合 的 结果 表明 人 们 
对 坏人 的 道德 品质 表征 有 更 大 的 方差 ， 因 此 是 更 
不 稳定 的 (Siegel et al., 2018)。 在 另 一 项 建议 采纳 
的 实验 里 , 他 人 提供 的 建议 的 真实 性 (x1) 受 到 其 
助人 动机 (x2) 的 有 影响， 助人 动机 进一步 受到 动机 
波动 (x3) 的 制约 , 最 高 层 x, 的 不 确定 性 独立 于 其 
CE, 方差 为 0。 被 试 根据 他 人 意图 的 变化 来 推断 
其 建议 的 真实 性 ， 以 便 优化 他 们 对 建议 有 效 性 的 
预测 : 当 他 人 持续 提供 误导 性 信息 ， 人 们 极 少 听 
从 对 方 的 建议 ,在 模型 拟 合 结果 中 表现 为 对 对 方 
的 x TÆ 9 的 表征 更 大 ， 即 对 其 助人 动机 的 感知 
十 分 不 稳定 (Diaconescu et al., 2014; Diaconescu et al., 
2017)。 类 似 地 ,在 风险 决策 任务 里 , 他 人 目光 注 
视 的 方向 给 人 们 的 决策 提供 上 暗示 ,暗示 的 正确 性 
Com) 受 线索 提供 者 提供 真实 线索 的 动机 (xz) 的 影响 ， 
这 种 动机 又 进一步 受到 动机 不 稳定 性 (x3) 的 制约 
(Henco et al., 2020)。 值 得 注意 的 是 ， 对 他 人 稳定 
性 的 感知 受 社会 偏好 的 影响 : 社会 偏好 强 的 人 给 
社会 信息 (也 即 他 人 目光 注视 方向 ) 的 稳定 性 赋予 
更 多 权重 , 将 社会 信息 的 可 靠 程度 放大 ， 因 此 更 
可 能 采用 他 人 提供 的 线索 而 不 顾 自己 掌握 的 信息 
(Diaconescu et al., 2020; Henco et al., 2020). 
2.2.3 ”卡尔 曼 滤 波 器 

可 捕捉 学 习 过 程 中 的 不 确定 性 的 模型 还 有 卡 
尔 曼 滤波 器 (Kalman filter) 也 。 在 卡尔 曼 滤波 器 中 ， 
对 奖赏 的 预期 是 经 验 中 的 刺激 -奖赏 联结 与 联结 
权重 的 总 和 ,因此 预期 不 仅 基于 刚刚 发 生 的 结果 ， 
而 取决 于 所 有 已 获取 的 观测 。 刺 激 -奖赏 联结 的 权 
重 在 每 一 次 获取 观测 值 后 都 得 到 更 新 , 这 种 更 新 
由 观测 值 与 预期 之 间 的 误差 所 驱动 ， 更 新 速率 与 
预期 信念 的 不 确定 性 有 关 。 因 此 ,预期 误差 越 大 ， 
或 预期 不 确定 性 越 大 的 时 候 ， 预 期 改变 得 越 快 。 
目前 ， 卡 尔 曼 滤波 器 主要 在 非 社会 学 习 的 相关 研究 
中 得 到 应 用 和 发 展 (Yu & Dayan, 2003; Dayan et al., 
2000; Morris et al., 2017; Piray & Daw, 2020), 但 
尚未 被 应 用 于 有 关 社 会 学 习 与 社会 决策 的 研究 中 ， 
研究 者 们 在 今后 的 研究 中 可 尝试 将 卡尔 曼 滤 波 器 


习 计算 机 制 的 可 能 性 。 
2.3 ”强化 学 习 模 型 与 贝 叶 斯 模型 的 结合 

可 观察 的 马尔 科 夫 决策 过 程 模型 

部 分 可 观察 的 马尔 科 夫 决策 过 程 (partially 
observable Markov decision process, POMDP) 的 理 
念 源 于 MDP, 因此 具备 强化 学 习 的 属性 。 然 而 在 
真实 的 社会 情境 中 ， 人 们 不 能 准确 掌握 环境 的 真 
实 的 状态 (如 他 人 的 道德 品质 )， 仅 能 通过 感官 获 
得 一 部 分 能 反映 状态 的 观测 值 (如 外 显 的 行为 )， 
此 时 人 们 利用 观测 值 形成 对 真实 状态 的 概率 估计 ， 
MDP 则 变 成 部 分 可 观察 的 MDP (partially observable 
MDP, POMDP)。 除 了 MDP 包含 的 元 素 , POMDP 
还 包括 了 人 们 获得 的 观测 值 Z， 及 在 状态 先 验 条 
件 下 的 观测 值 似 然 函 数 0。 在 POMDP 中 ， 人 们 根 
据 状 态 的 后 验 信念 ， 也 称 信念 状态 (belief state) 做 
出 决策 ; 而 对 信念 状态 的 更 新 则 基于 遵循 贝 叶 斯 
信息 更 新 方式 ,因此 POMDP 也 具备 贝 叶 斯 的 属 
ME. Khalvati, Park 等 (2019) 发 现 POMDP 比 强化 学 
习 模 型 能 更 好 拟 合 人 们 在 小 组 合作 任务 中 的 决策 
过 程 : 人 们 根据 历史 互动 结果 形成 信念 状态 (对 组 
员 合作 程度 的 概率 估计 )， 预 测 接 下 来 小 组 中 可 能 
选择 合作 的 人 数 ,进而 选择 最 有 利 的 行为 。 此 外 ， 
在 POMDP 中 , 每 一 次 决策 后 发 生 的 信念 状态 的 
转移 (后 验 信念 的 更 新 ) 都 是 下 一 次 决策 的 起 点 ; 
因此 ， 基 于 更 新 得 到 的 对 组 员 合 作 性 的 看 法 ， 人 
们 权衡 个 人 当前 的 效用 与 小 组 在 剩余 回合 的 长 期 
收益 期 望 , 采取 长 远 的 眼光 计划 接 下 来 的 决策 ， 
而 不 仅仅 关注 当下 回合 的 决策 (Khalvati, Park et al., 
2019)。 

交互 式 部 分 可 观察 的 马尔 科 夫 决策 过 程 
(Interactive POMDP, IPOMDP) 在 POMDP 的 基础 
上 更 多 地 考虑 了 社会 互动 过 程 中 的 真实 情况 。 尽 
管 POMDP 刻画 了 个 体 利用 互动 中 的 反馈 更 新 信 
念 状态 的 过 程 , 但 它 忽略 了 一 个 事实 : 互动 的 对 
象 可 能 也 在 以 同样 的 方式 形成 对 自己 的 信念 状态 ， 
也 即 人 们 会 意识 到 他 人 也 在 对 自己 进行 意图 的 推 
W, 或 者 更 高 阶 的 推断 ， 他 认为 我 如 何 对 他 进行 
推断 ? 社会 情境 的 真实 状态 受 多 个 施 动 个 体 行为 
的 有 影响， 因此 对 个 体 行为 的 预测 是 对 状态 估计 的 
必要 条 件 (Gmytrasiewicz & Doshi, 2005), IPOMDP 
与 POMDP 最 大 的 区 别 在 于 IPOMDP 模型 里 对 状 
态 的 估计 还 包括 了 对 他 人 模型 的 估计 , POMDP 中 
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的 状态 空间 在 IPOMDP 中 变 成 与 其 他 施 动 者 模型 
有 关 的 交互 式 状态 空间 (Hula et al., 2015; Hula et al., 
2018; Kumar et al., 2019; Xiang et al., 2012)。 例 如 ， 
在 多 轮 信 任 游戏 里 , 投资 者 () 通 过 从 互动 历史 中 
学 习 委 托 人 0) 的 行为 特点 ,计算 当前 回合 下 ， 若 
自己 选择 了 行动 空间 (4) 中 某 个 决策 (aj) 后 ， 委 托 
人 做 出 他 的 行为 空间 (4)) 中 的 某 种 决策 (qj) 的 可 能 
性 及 其 效用 ,提前 估计 在 未 来 两 个 回合 中 的 收益 ， 
以 优化 自己 的 决策 (Xiang et al., 2012)。 此 外 ， 除 了 
实时 推断 他 人 的 互惠 偏好 和 策略 ， 提 前 规划 决策 
外 (Hula et al., 2015)， 人 们 还 从 他 人 的 行为 中 推断 
他 人 当前 的 情绪 ， 当 发 现 自己 的 决策 引起 他 人 人 愤 
翁 时 便 及 时 调整 策略 以 修复 合作 关系 (Hula et al., 
2018)。 简 而 言 之 , IPOMDP 刻画 的 是 多 个 采用 
IPOMDP 的 个 体 多 次 互动 的 过 程 ， 即 他 人 的 意图 
模型 也 是 决策 过 程 需 考 虑 的 因素 。 

综 上 ,强化 学 习 模 型 与 贝 叶 斯 模型 各 有 其 特 
点 : 强化 学 习 模型 计算 简便 ， 并 通过 学 习 率 参数 
刻画 不 同 个 体 之 间 的 学 习 差 异 ， 然 而 这 种 计算 方 
式 未 能 有 效 表 征 人 们 对 社会 情境 中 的 不 确定 性 的 
感知 ; 贝 叶 斯 学 习 模 型 所 描述 的 学 习 是 一 种 基于 
概率 论 的 、 信 息 优化 过 程 ， 并 采用 概率 分 布 来 描 
述 心理 变量 , 更 能 反映 人 们 对 不 确定 性 的 表征 。 
需要 指出 的 是 ,以 往 许多 研究 发 现 强 化 学 习 和 贝 
叶 斯 的 算法 也 适用 于 对 非 社 会 学 习 的 描述 
(Devaine et al., 2014; Lockwood et al., 2018; Stanley, 
2016), 这 说 明 社 会 学 习 与 非 社会 学 习 的 认 知 计算 
过 程 有 一 定 程度 的 相似 性 。 但 需 注意 的 是 ,两 者 
仍 存在 显著 的 差别 : 与 非 社会 学 习 相 比 ,， 社会 学 
习 通 常 涉及 心理 理论 等 社会 认 知 过 程 , 也 即 人 们 
在 社会 互动 中 不 仅 追 踪 互 动产 生 的 奖赏 或 惩罚 ， 
还 考虑 了 个 体 间 行为 的 相互 影响 , 因此 ， 相 比 于 
标准 的 强化 学 习 或 贝 叶 斯 模型 ， 考 虑 了 社会 影响 
因素 的 模型 往往 能 更 好 地 对 社会 学 习 进 行 描述 
(Hampton et al., 2008; Hill et al., 2017; Zhu et al., 
2012; Park et al., 2019; Zhang & Glascher, 2020). 
2.4 计算 模型 的 选择 

需要 指出 的 是 ， 强 化 学 习 模 型 与 贝 叶 斯 模型 
以 及 它们 的 变 式 适用 于 描述 个 体 在 各 种 环境 中 的 
学 习 行 为 (Pulcu & Browning, 2019; Soltani & 
Izquierdo, 2019); 而 目前 也 尚 不 清楚 哪 种 模型 更 
真实 地 反映 了 学 习 的 内 在 机 制 (Pulcu & Browning， 
2019)。 因 此 , 在 实际 的 使 用 中 ， 对 模型 的 选择 主 


要 借助 模型 比较 指标 ， 这 些 指标 反映 了 对 模型 复 
杂 度 以 及 模型 数据 拟 合 度 的 权衡 (Wilson & 
Collins, 2019). 例如， 通过 模型 比较 Siegel FAM, 
HGF 模型 优 于 RW 强化 学 习 模 型 (Siegel et al., 
2018)。 然 而 ， 借 助 常 用 的 模型 比较 指标 只 能 得 出 
不 同 备 选 模型 的 相对 优 劣 ， 而 不 能 评估 模型 表现 
的 绝对 优异 程度 (Palminteri et al., 2017)。 这 个 问题 
可 以 通过 参数 恢复 (parameter recovery) 与 后 验 预 
测 检验 (posterior predictive check) 的 方式 解决 ， 这 
种 方法 已 经 在 越 来 越 多 的 研究 中 被 采纳 (Khalvati, 
Park et al., 2019; Palminteri et al., 2015)。 最 后 , 也 
有 研究 者 借鉴 “开放 科学 (open science)” 领 域 的 经 
验 对 模型 建构 过 程 的 可 靠 性 提出 了 建议 。 例 如 预 
注册 自己 的 研究 会 涉及 的 模型 ， 使 用 的 模型 比较 
指标 ， 公 开 建 模 的 过 程 ， 等 等 (Lee et al., 2019)。 由 
于 建 模 过 程 本 身 是 比较 多 样 和 灵活 的 ， 这 种 措施 
能 提高 其 中 的 透明 度 , 在 一 定 程度 上 避免 计算 模 
型 被 滥用 和 误 用 。 
25 计算 模型 的 实现 

计算 建 模 涉及 到 一 定 的 数理 和 编程 知识 ， 对 
初学 者 来 说 有 一 定 难 度 , 但 可 借助 现 有 的 工具 包 
和 软件 。 其 中 hBayesDM toolbox 是 基于 R 和 
Python 的 工具 包 , 通过 它们 编译 和 调用 Stan 模型 ， 
使 用 马尔 科 夫 链 蒙 特 卡 洛 方法 (Markov Chain 
Monte Carlo) 对 模型 的 参数 分 布 进行 采样 ， 使 
用 层级 贝 叶 斯 方法 (hierarchical Bayesian approach) 
同时 对 群体 和 个 体 水 平 的 参数 进行 采样 (Ahn et al., 
2017)。 该 工具 包 收 录 了 大 量 经 典 决 策 和 学 习 模 型 ， 
因此 ， 如 果 使 用 了 相同 的 范式 进行 研究 ， 可 直接 
方便 地 调用 相关 的 函数 对 自己 的 数据 进行 建 模 分 
析 。 此 外 ，HGF toolbox 是 基于 Matlab 的 工具 包 
(Mathys et al., 2011; Mathys et al., 2014)， 收 录 了 
常用 的 强化 学 习 模 型 (如 RW 模型 ) 以 及 贝 叶 斯 模型 
(如 HGF 模型 ), 使 用 最 大 后 验 (maximum-a-posteriori) 
的 方法 进行 参数 估计 。 再 者 , VBA toolbox thx 
于 Matlab 的 工具 包 (Daunizeau et al., 2014)， 可 用 
于 对 神经 生物 学 以 及 行为 数据 进行 建 模 ， 并 使 用 
变 分 贝 叶 斯 方法 (variational Bayesian approach) 
进行 参数 估计 .VBAtoolbox 中 收录 了 与 学 习 以 及 
决策 相关 的 强化 学 习 与 贝 叶 斯 模型 ， 它 的 核心 思 
想 是 将 所 有 模型 拆 分 为 状态 演化 方程 (evolution 
equation) 以 及 状态 -观测 映射 方程 (observation 
equation)， 因 此 不 同 的 模型 能 以 统一 的 方式 进行 
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调用 。 最 后 , CBM toolbox 是 基于 Matlab 的 工具 包 ， 
与 主流 模型 比较 方法 假设 某 个 最 优 模型 适用 于 所 
有 被 试 不 同 ，CBM 最 大 的 特点 是 允许 不 同 被 试 可 
能 对 应 不 同 的 最 优 模型 (Piray et al., 2019)。 这 个 方 
法 将 模型 比较 与 参数 估计 统一 到 一 个 框架 下 ， 因 
此 能 够 得 到 更 为 准确 的 结果 。 虽 然 这 种 方法 目前 
使 用 得 不 多 , 但 很 可 能 是 未 来 研究 的 重要 方向 。 
但 是 ， 这 种 方法 要 求 使 用 者 知道 自己 的 模型 空 | 
是 什么 (总 共有 哪些 模型 )， 并 将 它们 编写 出 来 ， 
因此 对 编程 的 要 求 较 高 。 

总 的 来 说 , 现 有 的 工具 箱 为 研究 者 使 用 计算 
建 模 分 析 提 供 了 一 定 程度 的 便利 , 研究 者 可 以 至 
少 在 三 个 层面 上 使 用 这 些 工具 箱 。 首 先 , 研究 者 
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征 了 社会 互动 中 获得 的 非 社会 性 效用 。 例 如 ， 腹 
内 侧 前 额 叶 和 上 腹 侧 纹 状 体 表 征 了 对 互动 时 金钱 收 
益 的 计算 (Behrens et al., 2008; Park et al., 2019; 
Zhang & Glascher, 2020): 人 们 在 建议 采纳 任务 中 
选择 更 优选 项 时 伴随 着 更 强 的 腹 侧 纹 状 体 活动 
(Bellucci et al., 2019); 获得 他 人 给 予 的 金钱 时 ， 
腹 内 侧 前 额 叶 和 腹 侧 纹 状 体 活动 会 增强 (Chien 
et al.，2016)。 以 往 非 社会 学 习 的 研究 中 也 发 现 这 
些 脑 区 对 物质 奖赏 的 编码 作用 ,例如 被 试 在 刺激 
一 奖赏 关联 学 习 任 务 中 获得 奖励 时 腹 内 侧 前 额 叶 
激活 增加 (Blair et al., 2006; Jocham et al., 2011)。 

此 外 ， 这些 价值 编码 相关 的 脑 区 (如 腹 内 侧 前 额 叶 ) 
还 表征 了 社会 学 习 中 的 社会 性 效用 ， 如 良好 的 特 


可 能 使 用 了 工具 箱 里 已 经 收录 的 实验 范式 和 对 应 
的 模型 ， 这 时 可 直接 调用 包 内 的 对 应 函数 。 其 次 ， 
研究 者 可 能 需要 根据 自己 的 任务 增加 工具 箱 中 没 
有 的 模型 ,这 时 工具 箱 里 的 模型 函数 的 源 代码 依 
然 可 以 作为 编程 语法 和 逮 辑 上 的 模板 ， 帮 助 研究 
者 在 现 有 模型 基础 上 改编 自己 所 需 的 模型 。 最 后 ， 
大 多 工具 箱 都 提供 了 模型 比较 和 参数 估计 的 模块 ， 
所 以 即使 研究 者 使 用 的 是 完全 不 同 的 模型 ， 依 然 
可 以 借用 工具 箱 中 的 这 些 模块 ,来 减少 编程 上 的 
代价 。 


3 ”社会 学 习 的 神经 机 制 


近年 来 ， 越 来 越 多 的 研究 将 计算 模型 与 脑 成 
像 技术 结合 ， 以 此 探究 大 脑 对 社会 学 习 中 不 同 认 
知 计算 过 程 的 执行 方式 。 这 种 基于 模型 的 脑 机 制 
研究 一 方面 有 助 于 理解 大 脑 各 区 域 在 社会 学 习 中 
的 具体 作用 ， 另 一 方面 可 以 为 计算 模型 提供 生物 
学 层面 的 支撑 。 本 小 节 将 对 有 关 社 会 学 习 的 计算 
神经 影像 研究 进行 回顾 ， 从 不 同类 型 的 计算 模型 
的 角度 分 别 归纳 社会 学 习 的 脑 机 制 。 

3.1 强化 学 习 的 神经 机 制 

强化 学 习 模 型 假设 决策 基于 心理 效用 ， 因 此 
在 决策 过 程 中 人 们 需要 对 各 决策 选项 的 效用 进行 
计算 ,心理 效用 的 表征 发 生 在 腹 内 侧 前 额 叶 
(ventromedial prefrontal cortex). 、 眶 额 叶 (orbital 
frontal cortex) 和 腹 侧 纹 状 体 (ventral striatum) 等 负 
责 奖 赏 与 价值 编码 相关 的 脑 区 中 (Behrens et al., 
2008; Bellucci et al., 2019; Chien et al., 2016; 
Hackel et al., 2015; Zhang & Glascher, 2020), ix #8 
脑 区 表征 的 价值 包括 两 方面 。 首 先 ,这 些 脑 区 表 


质 (如 诚实 、 慷 慨 )、 意 图 (助人 动机 ) 以 及 社会 规范 
等 本 身 固 有 的 心理 价值 。 例 如 ,面孔 吸引 力 对 于 
人 们 来 说 是 种 奖赏 ， 人们 与 高 面孔 吸引 力 者 
(Chien et al., 2016) 互 动 时 腹 内 侧 前 额 叶 有 更 强 的 
激活 。 类 似 地 ,与 诚实 的 人 (Bellucci et al., 2019) 
互动 时 腹 内 侧 前 额 叶 激活 更 强 。 在 选择 互动 的 伙 
伴 的 时 候 ， 人们 对 他 人 的 慷慨 程度 进行 比较 ， 人 性 
慨 的 差异 表征 在 腹 内 侧 前 额 叶 中 (Hackel et al., 
2015)。 最 后 ， 腹 内 侧 前 额 叶 损伤 的 病人 不 能 很 好 
地 计算 不 同 公平 程度 的 分 配 所 具有 的 效用 差异 ， 
因而 更 多 接受 不 公平 的 分 配 ， 让 自己 处 于 不 利 地 
位 (Gu et al., 2015)。 

但 在 社会 情境 下 的 奖赏 不 如 非 社会 情境 下 那 
样 可 直接 观测 ， 社 会 奖赏 的 计算 经 常 基于 对 他 人 
特质 或 意图 的 信念 ， 因 此 需要 借助 外 显 行为 进行 
推断 方 可 获得 。 所 以 社会 学 习 的 效用 的 表征 时 常 
涉及 社会 认 知 加 工 相 关 的 脑 区 ， 如 后 扣 带 皮层 


(posterior cingulate cortex) L4 Æ $i E 14 (superior 


temporal sulcus), 4i 顶 联 合 区 (temporo-parietal 
junctiom) 、 背 内 侧 前 额 叶 (dorsomedial prefrontal 
cortex) 等 脑 区 的 参与 (Bellucci et al., 2019; Ligneul 
et al., 2016; Park et al., 2019; Wittmann et al., 
2016)。 例 如 ,在 竞争 游戏 里 ， 人 们 推断 他 人 相 较 
于 自己 的 能 力 支配 地 位 ， 以 便 选 出 更 易 击 败 的 对 


手 ， 背 内 侧 前 额 叶 表征 了 对 他 人 能 力 的 预 基 


(Ligneul et al., 2016); 而 经 颅 直流 
额 叶 活动 的 抑制 破坏 了 这 种 表征 ， 


多 选择 比 自己 地 位 高 的 人 作为 对 寻 


Wittmann 等 (2016) 发 现 背 内 侧 前 额 


EE 对 缘 内 侧 前 
从 而 使 人 们 更 


Fo 与 之 类 似 ， 
叶 的 信号 追踪 


他 人 的 能 力 水 平 。 又 如 , 在 合作 任务 里 ， 群 体 利益 
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依赖 于 各 群体 成 员 选 择 贡 献 /搭便 车 的 可 能 性 ， 因 
此 人 们 在 计算 群体 长 期 利益 时 需 对 其 他 组 员 的 行 


为 动机 进行 推断 ， 相 应 地 伴随 着 里 顶 联 合 区 更 强 
的 活动 (Park et al., 2019)。 同 理 , 在 做 出 信任 决 

之 前 对 效用 的 计算 依赖 于 对 他 人 诚实 特质 或 意 
的 推断 ， 涉及 心理 理论 的 加 工 ， 对 他 人 特质 
图 的 推测 主要 编码 在 后 扣 带 皮层 中 ; 他 人 的 诚实 
行为 增加 了 杜 顶 联合 区 与 腹 内 侧 前 额 叶 的 功能 连 


策 
图 


=X I 


et al., 2015). XŠ (sh, Ah ATH BE 
预期 不 一 致 ， 杜 中 回 、 背 内 侧 前 额 叶 、 杜 上 沟 和 
杜 顶 联合 区 活动 增强 (Behrens et al., 2008); 他 人 
的 策略 发 生变 化 时 ， 背 内 侧 前 额 叶 参 与 表征 对 对 
手 信念 判断 的 错误 (Zhu et al., 2012)。 在 竞争 或 合 
作 游 戏 中 ， 背 内 侧 前 额 叶 追 踪 他 人 的 能 力 水 了 
并 计算 对 能 力 估 计 的 误差 (Ligneul et al., 2016; 
Wittmann et al., 2016)。 在 群体 决策 里 ， 当 人 们 观 
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接 ， 而 两 者 的 连接 强度 可 预测 被 试 对 他 人 的 信任 
程度 (Bellucci et al., 2019)。 
强化 学 习 发 生 的 关键 在 于 预期 误差 的 驱动 作 
用 。 预 期 误差 的 计算 需要 将 预期 的 心理 效用 与 实 
际 观察 结果 进行 比较 ， 主 要 涉及 腹 内 侧 前 额 叶 、 
眶 额 叶 、 壳 核 (putamen) 以 及 腹 侧 纹 状 体 等 奖赏 加 
工 相 关 脑 区 (Behrens et al., 2008; Hackel et al., 
2015; Zhang & Glascher, 2020; Zhu et al., 2012) 以 
及 前 扣 带 皮层 (anterior cingulate cortex) 和 前 侧 脑 
(anterior insula) 等 冲突 与 错误 加 工 相 关 脑 区 
(Zhang & Glischer, 2020; Zhu et al., 2012)。 例 如 ， 
当 他 人 给 与 自己 的 金钱 超出 自己 的 预期 时 (Chien 
et al., 2016; Hackel et al., 2015), 或 在 任务 里 赢得 
的 钱 比 预期 中 更 多 时 (Behrens et al., 2008; Zhang & 
Glascher, 2020; Zhu et al., 2012)， 腹 侧 纹 状 体 、 壳 
核 和 前 扣 带 皮层 的 活动 增强 。 类 似 地 ， 当 自己 或 
慈善 机 构 获 得 的 钱 比 预期 要 多 , 腹 侧 纹 状 体 的 活 
动 增强 (Kuss et al., 2013)。 在 Jones 等 (2011) 的 一 
项 实验 里 ， 被 试 通过 写 便签 的 方式 表示 对 他 人 ( 生 
活 、 爱 好 等 ) 的 兴趣 ， 当 被 试 在 不 期 待 得 到 对 方 反 
馈 时 却 收 到 对 方 写 给 自己 的 便签 时 ， 前 扣 带 皮 
、 前 侧 脑 岛 、 腹 侧 纹 状 体 和 眶 额 叶 的 活动 增强 。 
后 ， 脑 岛 损伤 的 病人 对 预期 误差 过 度 敏 感 ， 而 
能 良好 地 适应 社会 规范 的 变化 (Gu et al., 2015)。 
监控 社会 情境 中 预期 效用 与 实际 结果 的 冲突 
还 依赖 于 社会 认 知 能 力 ， 即 对 他 人 特质 、 意 图 的 
HEMT, Ate RSM LI, MURS KF 
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察 到 自己 的 决策 与 多 数 人 的 决策 不 一 致 时 , BT 
联合 区 和 壳 核 的 功能 连接 增强 , 并 且 它 们 的 连接 
强度 可 以 预测 人 们 随后 的 策略 变化 (Zhang & 
Glischer, 2020)。 

除了 奖惩 加 工 相 关 脑 区 与 心理 理论 加 工 相 关 
脑 区 ， 也 偶 有 研究 发 现 了 其 他 脑 区 参与 到 了 主观 
效用 与 预期 误差 的 计算 。 例 如 , 在 推断 他 人 特质 
HF, ShM Ay AU (dorsolateral prefrontal cortex) 
也 参与 了 对 他 人 诚实 特质 表征 (Bellucci et al., 
2019)， 而 腹 外 侧 前 额 叶 (ventrolateral prefrontal 
cortex) 编 码 了 人 们 对 他 人 慷慨 特质 预测 的 误差 
(Hackel et al., 2015)。 对 他 人 策略 的 预期 误差 还 会 
涉及 枕 叶 皮层 (occipital cortex) 和 小 脑 (cerebellum) 
的 参与 (Zhu et al., 2012). 
3.2” 贝 叶 斯 信念 更 新 的 神经 机 制 

贝 叶 斯 框架 下 的 社会 学 习 中 ， 人 们 与 他 人 互 
动 之 前 便 已 对 他 人 特质 与 意图 或 社会 规范 有 先 验 
信念 。 例 如 ,在 最 后 通 膝 游戏 开始 前 ， 应 对 者 预期 
分 配 者 给 出 的 分 配 约 为 总 额 的 50% (Xiang et al., 
2013)。 先 验 信念 的 形成 主要 依赖 于 对 他 人 的 所 思 
所 想 进 行 的 推断 ， 以 往 研究 发 现 该 认 知 过 程 的 执 
行 主要 涉及 心理 理论 相关 和 奖赏 加 工 相关 的 脑 区 
(Boorman et al., 2013; Kumaran et al., 2016; Suzuki 
et al., 2015)。 比 如 ， 人 们 对 他 人 提示 信息 (注视 方 
向 ) 的 正确 性 表征 在 颗 下 回 (inferior temporal 
gyrus) 、 苍 白 球 (pallidum) 和 壳 核 (Henco et al., 
2020); 对 他 人 能 力 水 平 的 估计 表征 在 前 扣 带 皮 


xX 


内 侧 前 额 叶 、 枫 前 叶 (precuneus) L Ae i HP E 
(middle temporal gyrus) 等 脑 区 (Behrens et al., 2008; 
Chien et al., 2016; Hackel et al., 2015; Wittmann et al., 
2016; Zhang & Glascher, 2020; Zhu et al., 2012). 

例如 ， 对 分 配 者 慷慨 程度 的 预期 误差 的 计算 需要 


IB. nti RAMA A AT At (Boorman et al., 
2013)。 小 组 任务 里 ， 被 试 选择 自己 喜爱 的 物品 时 ， 
主动 回忆 该 物品 在 之 前 受 其 他 组 员 的 喜爱 程度 ， 
同时 推断 当前 各 组 员 对 不 同 物品 的 喜爱 ， 这 个 计 


从 其 行为 推断 其 品质 ， 这 一 认 知 过 程 引 起 后 扣 带 
皮层 、 模 前 叶 和 杜 顶 联合 区 更 强 的 活动 , 但 这 些 
脑 区 并 没有 参与 到 金钱 预期 误差 的 计算 中 (Hackel 


Coach Me EE Fy ab Ya) AS T GX ff SE (Suzuki 
etal，2015) 。 在 权力 等 级 的 学 习 中 ,杏仁 核 
(amygdala) .海马 体 (nippocampus) 和 腹 内 侧 前 额 叶 
参与 了 对 他 人 权力 的 表征 Kumaran et al., 2016)。 
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通过 比较 模型 中 信念 的 均值 与 实际 反馈 结果 
的 差异 ， 人 们 的 先 验 信念 的 偏差 可 被 量化 ， 类似 
于 强化 学 习 中 对 预期 误差 的 计算 。 实 际 上 , 研究 
者 们 也 发 现在 贝 叶 斯 框架 下 的 社会 学 习 中 , 大脑 
的 确 计算 了 信念 分 布 的 均值 与 实际 结果 之 间 的 差 
异 。 一 方面 ,对 他 人 行为 或 策略 的 预期 表征 在 与 
奖赏 编码 相关 的 脑 区 以 及 感知 冲突 、 负 性 情绪 的 
脑 区 中 (Diaconescu et al., 2017; Garvert et al., 2015; 
Henco et al., 2020; Xiang et al., 2013; Xiang et al., 
2012)。 例 如 ， 委 托 人 的 互惠 金额 与 信念 之 间 的 差 
异 、 以 及 自己 的 投资 与 他 人 对 自己 的 投资 预期 的 
差异 均 表 征 在 腹 侧 纹 状 体 的 活动 中 (Xiang et al., 
2012)。 又 如 ， 对 他 人 诚实 度 和 博弈 策略 的 信念 误 
差 增 加 了 前 扣 带 皮层 与 前 侧 脑 岛 的 活动 
(Diaconescu et al., 2017)。 他 人 行为 对 公平 的 违背 
则 反映 在 腹 侧 纹 状 体 、 腹 内 侧 前 额 叶 、 眶 额 叶 和 
前 侧 脑 岛 的 活动 中 (Xiang et al., 2013)。 另 一 方面 ， 
信念 偏差 计算 过 程 也 涉及 对 他 人 潜在 心理 状态 的 
推断 ， 因 此 经 常 涉及 心理 理论 加 工 相 关 的 区 域 ， 
包括 里 上 沟 、 颗 顶 联合 区 、 枫 前 叶 和 青 内 侧 前 额 
叶 (Boorman et al., 2013; Diaconescu et al., 2017; 
Stanley, 2016; Xiang et al., 2012)。 例如 ， 人 们 对 专 
家 专业 水 平 的 信念 和 专家 实际 能 力 的 比较 发 生 在 
WEH, MKA., FAMA, iP 
棉 前 叶 和 运动 前 区 皮层 (promotor cortex) (Boorman 
et al., 2013)。 类 似 地 ， 比 较 自己 投资 与 他 人 对 自己 
的 投资 期 望 的 差异 涉及 杜 顶 联合 区 的 参与 (Xiang 
et al., 2012)。 由 于 贝 叶 斯 模型 假设 信念 的 表征 服 
从 概率 分 布 而 不 是 一 个 确切 的 数值 ， 因 此 在 社会 
学 习 过 程 中 ， 人 们 还 对 信念 的 不 确定 性 进行 表 
征 。 目 前 发 现 的 表征 不 确定 性 的 脑 区 主要 包括 奖 
赏 /情感 加 工 相关 区 域 、 心 理 理论 相关 脑 区 以 及 认 
知 控制 相关 区 域 (Diaconescu et al., 2020; Henco et al., 
2020; Hétu et al., 2017; Xiang et al., 2013; Yoshida 
et al., 2010)。 例如， 在 建议 采纳 任务 中 , 决策 基于 
对 自己 掌握 的 非 社会 信息 ( 赢 钱 概率 ) 与 社会 信息 
(他 人 建议 ) 的 可 靠 性 的 权衡 。Behrens 等 (2008) 发 
现 人 们 对 社会 性 与 非 社会 性 的 不 确定 性 表征 在 前 
扣 带 皮层 的 不 同位 置 ， 其 中 前 扣 带 沟 负 责 感知 金 
钱 奖赏 的 波动 ， 而 前 扣 带 回 表征 了 他 人 意图 的 不 
稳定 性 。Diaconescu 等 (2020) 则 发 现 ， 人 们 对 非 社 
会 信息 和 社会 信息 的 可 靠 性 赋予 不 同 的 权重 ， 当 
人 们 更 依赖 自我 掌握 的 信息 的 可 靠 性 做 决策 ， 腹 


侧 被 盖 区 / 黑 质 (ventral tegmental area/ substantia 
nigra) 和 背 外 侧 前 额 叶 有 更 强 的 激活 ; 相反 ， 当 人 
们 给 社会 信息 的 可 靠 性 赋予 更 多 权重 时 ， 腹 内 侧 
前 额 叶 和 杜 顶 联合 区 有 更 强 的 活动 ; 此外, 与 意 
图 稳定 的 人 互动 时 禁 仁 核 、 显 上 沟 和 腹 内 侧 前 额 
叶 有 更 强 的 激活 。 在 类 似 的 任务 中 ，Henco 等 
(Henco et al., 2020) 发 现 社 会 信息 的 不 确定 性 主要 
表征 在 里 上 沟 ， 而 非 社会 信息 的 不 确定 性 主要 表征 
在 前 侧 脑 岛 与 中 央 盖 (rolandic operculum), XUN, 
在 合作 游戏 里 ， 当 对 手 (程序 ) 的 行为 策略 改变 ， 
人 们 对 他 人 策略 推断 的 不 确定 性 增加 ， 伴随 着 内 
侧 前 额 叶 与 后 扣 带 皮层 有 更 强 的 激活 ， 说 明 内 侧 
前 额 叶 和 后 扣 带 皮层 表征 了 信念 的 不 确定 性 
(Yoshida et al., 2010)。 

另外 , 大 脑 还 表征 当前 环境 下 社会 规范 的 不 
确定 性 : 人 们 规范 信念 的 分 布 方差 的 误差 主要 表 
征 在 前 侧 脑 岛 、 腹 侧 纹 状 体 和 腹 侧 被 盖 区 / 黑 质 
(Hetu et al., 2017; Xiang et al., 2013)。 由 于 社会 规 
范 信 息 与 人 们 先 验 信念 以 贝 叶 斯 信息 更 新 方式 整 
合 , 在 此 框架 下 , 个 体 需 对 社会 信息 与 个 人 信息 
的 可 靠 性 (与 不 确定 性 互 为 倒数 ) 进 行 评估 。 研 究 发 
现 信 息 的 可 靠 性 主要 表征 在 腹 内 侧 前 额 叶 、 腹 侧 
BOR PR. BTU A DK DA Be BE Ai MP Se MB] X (Burke 
et al., 2010; Campbell-Meiklejohn et al., 2017; de 
Martino et al., 2017; Li et al., 2019; Meshi et al., 
2012; Park et al., 2017) 。 例 如 ， 腹 内 侧 前 额 叶 和 
背 内 侧 前 额 叶 表 征 了 人 们 对 某 件 商品 评分 的 肯定 
程度 (de Martino et al., 2017)。 类 似 地 ,在 猜 丛 迷 游 
戏 里 ， 腹 内 侧 前 额 叶 表征 了 他 人 对 多 数 石 头 颜色 
判断 的 肯定 程度 (Campbell-Meiklejohn et al., 
2017)。 观 看 他 人 购买 股票 行为 时 ， 购 买 人 数 越 多 
意味 着 社会 信息 的 可 靠 性 越 高 ， 腹 侧 纹 状 体 有 更 
强 的 激活 ， 人 类 的 行为 比 猩猩 的 购买 行为 更 具 参 
考 价值 ， 在 观看 人 类 购买 股票 行为 时 腹 侧 纹 状 体 
活动 更 强 (Burke et al., 2010)。 

最 后 ， 人 们 根据 观测 到 的 信息 的 可 信 度 ,将 
之 与 先 验 信念 进行 整合 ， 从 而 更 新 自己 的 信念 3 
据 此 做 出 合适 的 决定 。 在 贝 叶 斯 模型 中 ,信念 更 
新 的 程度 可 以 用 Kullback-Leibler divergence (KL 
散 度 ) 衡 量 。KL 散 度 是 两 个 概率 分 布 之 间 差 异 的 
度量 ， 因 而 可 用 于 描述 后 验 信念 与 先 验 信念 之 间 
的 差异 ， 即 信念 更 新 的 程度 。 信 念 更 新 的 程度 主 
要 与 认 知 控制 加 工 相 关 区 域 的 活动 呈正 相关 ， 包 
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括 背 外 侧 前 额 叶 、 顶 下 小 叶 (inferior parietal lobule) 
以 及 前 扣 带 皮层 (de Martino et al., 2017; Park et al., 
2017; Suzuki et al., 2016)。 例 如 ， 在 规模 越 大 的 群 
体 中 , 被 试 越 容易 将 群体 内 多 数 成 员 的 决策 视 作 
有 效 信息 从 而 做 出 更 大 的 从 众 行为 ,这 种 行为 上 
的 变化 能 够 被 背 外 侧 前 额 叶 和 前 扣 带 皮层 功能 连 
接 强度 预测 (Park et al., 2017)。 又 如 , 在 小 组 决策 
过 程 中 ,表征 个 人 物品 喜好 的 腹 内 侧 前 额 叶 和 表 
征 组 员 喜 好 的 里 上 沟 / 杜 顶 联 合 区 与 前 扣 带 皮层 
功能 连接 增加 ， 而 前 扣 带 皮层 的 激活 强度 与 被 试 
的 物品 选择 概率 相关 ， 说 明 前 扣 带 皮层 整合 了 被 
试 的 个 人 喜好 以 及 对 组 员 喜 好 的 估计 ， 并 指导 被 
试 的 决策 (Suzuki et al., 2012)。 此 外 ,研究 者 也 发 
现 奖赏 系统 参与 到 信息 整合 的 过 程 。 例 如 ,对 自 
己 相 对 于 他 人 权力 等 级 的 信念 更 新 的 程度 与 眶 额 
叶 、 海 马 体 、 前 侧 脑 岛 及 面孔 加 工 相 关 脑 区 权 状 
回 面孔 区 (fusiform face area) 的 激活 相关 (Kumaran 
et al., 2016)。 又 如 ， 腹 侧 纹 状 体 的 活动 可 预测 人 们 
在 购买 股票 时 受 群众 影响 的 程度 (Burke et al., 
2010)。 类 似 地 ,在 跨 期 选择 任务 中 ,被 试 自己 的 
延迟 满足 偏好 与 他 人 的 差异 计算 在 腹 侧 纹 状 体 中 ， 
且 腹 侧 纹 状 体 对 差异 的 表征 强度 可 预测 被 试 延 
迟 满 足 偏好 的 改变 程度 (Garvert et al., 2015)。 又 如 ， 
对 自己 与 他 人 权力 等 级 的 信念 更 新 的 程度 与 海马 
体 、 眶 额 叶 、 前 侧 脑 岛 及 梭 状 回 面孔 区 (fusiform 
face area) 的 激活 相关 (Kumaran et al., 2016)。 

总 而 言 之 , 在 强化 学 习 框 架 下 ,社会 学 习 主 
要 包括 对 主观 期 望 与 预期 误差 的 计算 。 与 非 社会 
学 习 的 研究 发 现 一 致 ， 以 上 两 个 计算 过 程 涉 及 奖 
惩 加 工 相 关 脑 区 的 参与 ; 但 在 社会 性 情境 中 ， 由 
于 需要 通过 行为 对 他 人 的 特质 与 意图 进行 推断 ， 
社会 认 知 加 工 相 关 脑 区 也 参与 到 主观 期 望 和 预期 
误差 的 计算 中 。 而 在 贝 叶 斯 模型 下 ， 人 们 表征 对 
他 人 的 先 验 信 念 ,并 感知 到 实际 结果 与 信念 的 偏 
差 . 其 表征 分 别 与 强化 学 习 中 主观 期 望 、 预 期 误 
差 的 表征 相 类 似 。 此 外 ,在 贝 叶 斯 模型 框架 下 的 
社会 学 习 还 涉及 对 不 确定 性 的 表征 以 及 信息 整合 ， 
除 奖惩 加 工 和 社会 认 知 加 工 脑 区 外 ,还 涉及 认 知 


对 学 习 信 号 的 计算 (O'Doherty et al., 2017; Ruff & 
Fehr 2014)。 
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和 会 学 习 ， 即 在 反复 进行 的 社会 互动 中 对 他 
人 的 特质 、 意 图 以 及 社会 规范 的 学 习 ， 能 有 效 地 
帮助 人 们 降低 社会 互动 中 的 不 确定 性 并 优化 决 
策 。 计 算 模型 、 行 为 范式 以 及 神经 影像 技术 的 结 
合 可 将 社会 学 习 背 后 复杂 的 认 知 计算 过 程 量 化 并 
揭示 执行 这 些 计 算 过 程 的 大 脑 区 域 。 因 此 ， 近 年 
来 基于 模型 的 脑 成 像 研究 在 很 大 程度 上 加 深 了 我 
们 对 社会 学 习 计 算 神经 机 制 的 理解 。 

本 文 对 近年 来 有 关 计算 建 模 以 及 计算 神经 科 
学 相关 的 实证 研究 进行 了 回顾 ， 主 要 关注 了 现 有 
文献 中 主要 使 用 的 两 大 类 计算 模型 一 强化 学 习 模 
型 和 贝 叶 斯 模型 一 如 何 刻 画 个 体 的 社会 学 习 过 程 
及 其 神经 基础 。 强 化 学 习 模型 假设 社会 学 习 由 实 
际 互动 结果 与 期 望 之 间 的 误差 驱动 ， 人 们 对 预 划 
误差 赋予 一 定 的 权重 (学 习 率 ) 后 与 原 有 期 望 整合 ， 
而 学 习 率 捕捉 到 社会 学 习 过 程 的 个 体 差异 。 贝 叶 
斯 模型 则 假设 社会 学 习 的 过 程 符合 贝 叶 斯 信息 更 
新 的 方式 : 人 们 将 观察 到 的 现象 与 对 他 人 或 规范 
的 先 验 信 念 以 贝 叶 斯 的 方式 进行 整合 ,整合 形成 
后 验 信念 将 指导 后 续 的 社会 决策 。 

与 强化 学 习 以 及 贝 叶 斯 模型 密切 相关 的 潜在 
计算 过 程 主要 包括 对 主观 期 望 以 及 预期 误差 的 表 
征 、 对 不 确定 性 的 表征 以 及 对 信息 的 整合 过 程 。 
这 些 核 心 的 计算 过 程 涉 及 的 脑 区 包括 奖惩 加 工 、 
心理 理论 以 及 认 知 控制 相关 的 脑 区 (图 1)。 具体 而 
言 ， 主 观 期 望 主 要 表征 在 奖赏 加 工 相 关 脑 区 与 心 
理 理论 加 工 相 关 脑 区 ， 对 预期 误差 表征 的 表征 主 
要 发 生 在 奖赏 加 工 相关 脑 区 、 人 情感 加 工 相关 脑 区 
以 及 心理 理论 加 工 相关 脑 区 。 主 观 期 望 和 预期 误 
差 的 计算 在 强化 学 习 模 型 与 贝 叶 斯 模型 中 均 有 涉 
及 , 但 贝 叶 斯 模型 下 的 社会 学 习 还 涉及 对 不 确定 
性 的 表征 与 信息 整合 ,两 者 均 涉及 奖赏 加 工 相关 
脑 区 、 情 感 加 工 相 关 脑 区 、 心 理 理论 加 工 相 关 脑 
区 和 认 知 控制 相关 脑 区 的 参与 。 现 有 的 证 据 提示 


o 这 些 研 究 发 现 提示 社会 学 习 与 非 

会 学 习 的 神经 机 制 有 重 又 部 分 ， 主 要 表现 在 奖 
[相关 区 域 在 学 习 中 的 价值 表征 作用 ; 然而 ， 
重要 的 是 ， 社 会 学 习 相 关 计 算 过 程 的 执行 也 涉及 
社会 加 工 的 特异 性 脑 区 , 例如 社会 认 知 相关 脑 区 


两 个 主要 的 结论 : 首先 ,在 算法 层面 , 虽然 强化 学 
习 与 贝 叶 斯 模型 同时 适用 于 社会 和 非 社 会 学 习 ; 
但 在 执行 层面 ， 可 以 发 现 社 会 学 习 涉及 的 认 知 计 
算 过 程 (如 对 预期 误差 的 表征 ) 不 仅仅 依赖 于 非 社 
会 学 习 中 的 奖惩 加 工区 域 ， 同 时 也 涉及 与 社会 认 
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奖赏 系统 奖赏 系统 奖赏 系统 I 
(vmPFC, VS) (vmPFC, VS) (vmPFC, VS) = 
社会 认 知 系统 情感 系统 情感 系统 N F 
(dmPFC, STS, TPJ, PCC) (ACC, ALamygdala) (ACC, AI , amygdala) 
社会 认 知 系统 | | 下 Aa apfc 
(dmPFC, STS, TPJ, PCC) | (dmPFC, STS, TPJ, PCC) 
l | 认 知 控制 系统 认 知 控制 系统 
(dIPFC, IPL) 


图 1 社会 学 习 的 计算 神经 机 制 
A: 社会 学 习 的 计算 模型 及 神经 基础 。 强 化 学 习 模型 下 社会 学 习 的 认 知 过 程 主要 包括 主观 期 望 和 预期 误差 的 计算 ， 贝 叶 斯 模 
型 下 社会 学 习 的 认 知 过 程 包括 主观 期 望 、 预 期 误差 的 计算 、 不 确定 性 的 表征 以 及 信息 整合 。 主 观 期 望 的 计算 涉及 奖赏 系统 
与 社会 认 知 系统 ; 预期 误差 的 计算 涉及 奖赏 系统 、 情 感 系统 与 社会 认 知 系统 ; 不 确定 性 的 表征 及 信息 整合 涉及 奖赏 系统 、 
情感 系统 、 社 会 认 知 系统 了 B: 社会 学 习 涉及 的 大 脑 系 统 : 奖赏 系统 主要 包括 VS. vmPFC; 情感 系统 主要 
包括 ACC, AI, amygdala; 社会 认 知 系统 主要 包括 dmPFC, TPJ, STS. PCC; 认 知 控制 系统 主要 包括 dPFC, IPL 
VS: ventral striatum, Sits vmPFC: ventromedial prefrontal cortex, 腹 内 侧 前 额 叶 皮层 ; ACC: anterior cingulate cortex, 
前 扣 带 皮层 ; Al: anterior insula, 前 侧 脑 岛 amygdala: 杏仁 核 ; dmPFC: dorsalmedial prefrontal cortex, AAI MIATA KE; 
TPJ: temporo-parietal junction, MTMHK 4X; STS, superior temporal sulcus, #74; PCC: posterior cingulate cortex， 后 扣 带 
皮层 ; dIPFC: dorsolateral prefrontal cortex， 背 外 侧 前 额 叶 皮层 ; IPL: inferior parietal lobule， 顶 下 小 叶 。 


知 加 工 相 关 的 区 域 。 这 些 结果 表明 ， 即使 社会 学 基于 单 变 量 激 活 的 分 析 手 段 可 能 并 不 是 揭示 计算 
习 和 非 社会 学 习 共 享 相 似 的 算法 ， 执 行 这 些 算 法 过 程 与 神经 活动 关系 的 最 佳 技术 手段 。 

的 神经 机 制 仍 有 一 定 的 社会 特异 性 (Lockwood, 5 展望 

Apps, & Chang, 2020)。 其 次 , 不 同 的 认 知 计算 过 

程 与 大 脑 区 域 之 间 的 关系 并 不 是 一 一 对 应 的 ， 而 近年 来 ,多 个 学 科 领 域 的 研究 者 们 结合 实验 
是 多 对 多 的 关系 。 例 如 ,不同 的 计算 过 程 会 涉及 设计 、 计 算 建 模 与 神经 影像 技术 ,为 复杂 的 社会 
多 个 脑 区 ， 而 某 个 特定 脑 区 会 参与 到 多 个 计算 过 学 习 现 象 提供 了 客观 的 理论 模型 ， 对 相关 的 理论 
程 中 (图 1)。 这 个 发 现 也 提示 ， 现 有 研究 中 常用 的 假设 进行 定量 的 公式 表达 ,并 揭示 了 执行 相关 计 
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算 过 程 的 大 脑 区 域 。 虽 然 这 些 研 究 为 揭示 社会 
习 的 认 知 计算 神经 机 制 提供 了 重要 的 证 据 ， p 
一 些 非常 重要 的 问题 有 待 将 来 的 研究 解决 。 

首先 ， 现 有 文献 中 主流 的 强化 学 习 与 贝 叶 斯 
模型 主要 是 针对 个 体 的 选择 (choices) 进 行 建 模 ， 
而 不 去 考虑 个 体 在 做 出 某 个 选择 时 的 复杂 动态 过 
程 , 也 即 忽略 了 个 体 做 出 决策 时 的 反应 时 信息 。 
因此 ， 有 研究 者 提出 将 学 习 模 型 与 漂移 扩散 模型 
(drift diffusion modeD 进 行 结合 对 选择 与 反应 时 数 
据 同 时 进行 建 模 ， 从 而 更 丰富 地 刻画 个 体 在 学 习 
过 程 中 的 决策 行为 (Miletié et al., 2020; Pedersen & 
Frank, 2020)。 漂 移 扩 散 模 型 假定 个 体 在 做 出 决定 
前 不 断 在 收集 带 有 噪声 的 证 据 ， 直 到 支持 某 个 选 
项 的 累积 证 据 达 到 决策 的 心理 阐 限 (Ratcliff et al., 
2016)。 因 此 ,漂移 扩散 模型 的 一 个 重要 优势 是 可 
以 刻画 个 体 决策 时 的 动态 过 程 ， 同 时 拟 合 选择 数 
据 与 反应 时 数据 。 最 近 一 项 研究 将 漂移 扩散 模型 
扩展 到 社会 决策 情境 ， 用 来 刻画 个 体 在 群体 决策 
中 对 个 体 信 息 与 社会 信息 进行 整合 的 动态 过 程 
(Tump et al., 2020)。 将 来 的 研究 可 以 将 学 习 模 型 
与 漂移 扩散 模型 相 结 合 ， 以 期 对 社会 学 习 过 程 有 
更 精细 的 刻画 。 

其 次 , 大 多 数 研究 采用 非 真 实 的 社会 互动 情 
境 ,， 可 能 导致 较 低 的 生态 效 度 。 例 如 ,很 多 研究 使 
用 计算 机 程序 充当 被 试 在 社会 学 习 中 的 “搭档 ”。 
“程序 搭档 ”有 其 独特 优势 : 大 大 节约 了 实验 成 本 ; 
编程 可 低 成 本 地 创造 具有 不 同 特质 、 不 同意 图 的 
被 试 , 创造 特定 的 社会 情境 , 便于 人 研究 者 探究 自 

感 兴趣 的 内 容 。 然 而 需要 指出 的 是 , 社会 互动 
的 真实 性 是 程序 无 法 模拟 的 。 首 先 , 与 程序 互动 
时 , 被 试 身 处 于 计算 机 前 或 扫描 舱 内 ,被 试 未 必 
完全 相信 自己 正在 与 他 人 进行 互动 。 其 次 , 尽管 


(hyperscanning) 技 术 或 许 能 为 解决 社会 学 习 研 究 
中 的 生态 效 度 问 题 提供 思路 。 超 扫描 是 一 种 通过 
设备 连接 ,同步 采集 多 个 互动 个 体 神经 活动 的 技 
AR, 其 应 用 范围 包括 功能 性 核磁 共振 技术 、 功 能 
性 近 红 外 光谱 技术 和 脑 电 记 录 等 。 将 超 扫描 应 用 
到 真实 、 自 然 的 多 人 互动 中 不 仅 可 记录 单一 个 体 
在 社会 互动 中 的 神经 机 制 , 还 可 揭示 社会 互动 中 
个 体 之 间 神 经 活动 的 相关 性 或 同步 性 (Montague 
et al.，2002)， 从 而 为 社会 学 习 的 群体 属性 提供 了 
保障 。 例如， 最 近 有 研究 发 现在 集体 任务 中 ， 和 群体 
认同 感 使 群体 内 各 成 员 前 额 皮 层 的 活动 同步 降低 ， 
增加 群体 成 员 的 盲目 、 冲 动 行为 (Yang et al., 
2020)。 今 后 ， 研 究 者 可 以 将 超 扫描 技术 善 及 到 社 
会 学 习 的 研究 之 中 , 在 探究 单 脑 内 神经 活动 的 基 
础 上 ， 进 一 步 探讨 脑 间 神 经 An AAA EEA, 从 
而 在 更 具 生态 效 度 的 社会 情境 中 考察 社会 学 习 的 
计算 神经 机 制 ， 并 有 利于 将 eae E 广 到 
实践 中 。 

再 者 ， 以 往 社会 学 习 脑 机 制 的 研究 大 多 采用 
单 变量 分 析 ， 关注 单 个 脑 区 的 激活 与 社会 学 习 的 
KA, 这 种 技术 途径 存在 缺陷 :一 方面 , 敏感 性 比 
较 弱 ,无 法 捕捉 多 个 体 素 形成 的 联合 激活 模式 。 
男 一 方面 ,传统 的 激活 分 析 无 法 考察 多 个 脑 区 间 
的 脑 网 络 连接 模式 ; 然而 ， 越 来 越 多 的 证 据 发 现 
大 脑 对 任务 的 表征 与 执行 是 通过 多 个 脑 区 组 成 的 
大 尺度 脑 网 络 来 实现 ， 而 非 局 部 区 域 的 激活 
(Alcala-Lopez et al., 2018; Anderson et al., 2012; 
Barrett & Satpute, 2013; Bassett & Sporns, 2017; 
Bellucci et al., 2019; Feng et al., 2017; Park et al., 
2020; van Baar et al., 2019; Wang & Olson, 2018), 
但 就 已 有 文献 来 看 ， 这些 领域 最 新 的 神经 影像 数 
据 分 析 手 段 尚 未 在 社会 学 习 研 究 领 域 得 到 良好 的 


研究 者 们 采用 模拟 算法 让 “程序 搭档 ”的 行为 模式 
更 加 逼近 于 真人 (Park et al., 2019), 这 些 算法 的 设 
计 只 基于 研究 者 对 社会 互动 的 心理 过 程 的 假设 ， 
与 真实 社会 互动 情境 下 人 们 动态 变化 意图 与 策略 
可 能 相差 较 远 。 因 此 ,这 样 的 实验 设计 未 必 捕 捉 
到 被 试 在 真实 社会 情境 下 的 心理 过 程 ， 或 损失 了 
部 分 真实 的 心理 过 程 。 在 将 来 的 研究 中 , 研究 者 
应 更 注重 实验 设计 的 生态 效 度 ,更 多 采用 真人 互 
动 的 实验 设计 (Zhang & Glascher, 2020), 以 及 在 
非 真 人 互动 的 实验 设计 中 更 注重 互动 情境 的 创设 。 

近年 来 受到 越 来 越 多 关注 的 超 扫 描 


通过 对 已 有 研究 结果 的 回顾 可 知 ， 大 多 对 
会 学 习 中 关键 心理 变量 计算 的 神经 机 制 的 发 现 
ww， ' 脑 区 -计算 过 程 ? 这 样 较 单一 的 映射 形 
式 ， 从 而 难以 发 现 相 同 脑 区 在 不 同 计算 过 程 中 参 
与 方式 的 差异 以 及 一 个 计算 过 程 如 何 调动 不 同 脑 
区 间 的 协作 。 总 括 而 言 ， 未 来 的 研究 可 以 更 多 结 
变量 分 析 ( 如 多 变量 模式 分 析 以 及 表征 相似 
性 分 析 ) 与 脑 网 络 分 析 等 技术 方法 从 更 新 的 角度 
来 看 待 不 同 大 脑 区 域 在 社会 学 习 中 的 功能 。 
此 外 ,目前 关于 内 隐 和 社会 学 习 的 计算 神经 机 
制 研究 尚 少 。 内 隐 认 知 属 于 无 意识 的 认 知 过 程 ， 
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是 复杂 多 面 的 现象 , 广泛 存在 于 社会 互动 中 。 例 
如 ， 许 多 声称 反对 种 族 歧视 的 人 在 相关 的 内 隐 联 
结 测试 中 表现 出 明显 的 种 族 歧 视 倾向 (Ottaway 
et al., 2001)。 在 社会 学 习 中 ， 人 们 会 将 和 任务 本 身 
无 关 的 结构 性 特征 迁移 到 新 的 刺激 上 , 但 人 们 不 
会 意识 到 这 种 迁移 ， 这 反映 了 一 种 内 隐 学 习 过 程 
(Nosek et al., 2011)。 例 如 ， 给 被 试 呈现 两 种 不 同 
发 型 的 女性 面孔 ， 而 不 同 发 型 内 隐 地 与 吸引 力 的 
评分 高 低 联 系 在 一 起 ; 虽然 被 试 没有 意识 到 这 种 
联系 ,但 在 测试 阶段 给 被 试 呈 现 两 种 发 型 的 新 面 
孔 时 ， 他 们 会 将 学 习 阶 段 的 评分 迁移 到 新 的 面孔 
中 (Ivanchei et al., 2019)。 虽然 以 往 有 很 多 研究 发 现 
内 隐 社 会 学 习 的 现象 (Cone et al., 2017; Ferguson et al., 
2019; Ivanchei et al., 2019; Madva & Brownstein, 
2018; Panagopoulos & van der Linden, 2016; Soon, 
2020), 但 现 有 的 心理 学 实验 范式 还 不 适合 与 计算 
建 模 以 及 脑 成 像 技术 相 结合 。 未 来 的 研究 需要 对 
现 有 的 范式 进行 改编 ,从 而 让 内 隐 社 会 学 习 可 能 
涉及 的 计算 过 程 能 够 量化 。 

最 后 ， 对 社会 学 习 计 算 与 神经 机 制 的 揭示 也 
有 助 于 理解 多 种 精神 疾病 在 社会 功能 方面 的 异 
常 。 一 方面 ， 越 来 越 多 的 研究 发 现 精神 疾病 患者 
(如 自 闭 症 ) 在 整合 社会 信息 方面 存在 异常 
(DeMayo et al., 2019)。 男 一 方面 ,计算 建 模 与 脑 
成 像 技术 的 结合 为 揭示 精神 疾病 潜在 机 制 提供 了 
非常 重要 与 新 颖 的 方向 ， 也 即 近年 来 发 展 迅 速 的 
计算 精神 病 学 (computational psychiatry)。 计 算 精 
神 病 学 在 理论 层面 为 理解 精神 疾病 提供 了 量化 的 
理论 模型 (Maia et al., 2017; Paulus et al., 2016); 
在 实践 层面 ， 相关 模 型 拟 合 出 的 参数 要 比 原始 行 
为 更 直观 地 反映 相应 的 心理 过 程 (如 冲动 性 )， 
此 可 能 具有 更 高 的 信和 度 (Hedge et al., 2020)。 综 上 ， 
将 来 的 研究 可 以 结合 社会 学 习 领 域 中 新 颖 的 范 
式 、 计 算 模型 以 及 脑 成 像 技术 来 更 好 地 理解 精神 
疾病 患者 社会 功能 的 异常 ， 并 为 精神 疾病 的 诊断 
以 及 治疗 效果 提供 更 为 精细 化 的 指标 。 
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Abstract: Social learning refers to the belief updates of others’ personal attributes and intentions as well as 
social norms under certain circumstances during social interactions. Due to its critical role in human 
decisions and social interactions, the past years have witnessed a growing body of studies that examine 
computational and neural basis of social learning combining computational models and human brain 
imaging techniques. The current literature indicates that human social learning can be well captured by 
reinforcement learning model and Bayesian model, based on which four computational subcomponents have 
been consistently identified for social learning, including subjective expectation, prediction error, 
uncertainty, and information integration. These computational processes have frequently engaged the 
involvement of brain systems associated with reward and punishment processing (e.g. ventral striatum and 
ventromedial prefrontal cortex), social cognition (e.g. dorsomedial prefrontal cortex and temporo-parietal 
junction), and cognitive control (e.g. dorsolateral prefrontal cortex). However, it should be noted that there 
is no One-to-one mapping between computational processes and brain regions, suggesting that multivoxel 
pattern analysis and brain network analysis should be utilized in future studies to reveal how different 
computational processes are implemented in large-scale networks according to systems neuroscience. 
Moreover, future studies should try to increase the ecological validity by creating real social interactions 
between people and by leveraging novel neuroimaging approaches (e.g. hyperscanning techniques). Finally, 
more efforts are needed to unravel the neural and computational signatures of implicit social learning. 
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